데이터 이질성과 잊혀진 라벨 문제를 해결한 Split Federated Learning
초록
본 논문은 Split Federated Learning(SFL)에서 데이터 이질성으로 인한 파트‑2의 순차적 학습이 라벨별 성능 격차를 초래하는 ‘내부 라운드 재앙적 망각(intra‑CF)’ 현상을 규명한다. 처리 순서와 컷 레이어가 망각에 미치는 영향을 실험적으로 분석하고, 다중 헤드 구조를 도입한 Hydra 방식을 제안해 라벨 간 격차와 전체 정확도를 크게 개선한다.
상세 분석
SFL은 모델을 클라이언트‑파트(Part‑1)와 서버‑파트(Part‑2)로 분할해, 클라이언트는 로컬 데이터에 대해 Part‑1을 학습하고, 서버는 클라이언트가 전송한 중간 활성화를 받아 Part‑2를 순차적으로 업데이트한다. 기존 연구는 Part‑1의 파라미터 드리프트에만 주목했으나, 본 논문은 Part‑2가 클라이언트 처리 순서에 따라 재앙적 망각(intra‑CF)을 겪는다는 새로운 현상을 발견한다. 데이터가 비IID(특히 각 클라이언트가 지배 라벨을 갖는 경우)일 때, 서버가 마지막에 처리한 클라이언트의 라벨에 대해 정확도가 현저히 높아지고, 앞서 처리된 라벨은 점차 성능이 하락한다. 이는 연속 학습(Continual Learning)에서 발생하는 망각과 유사하지만, SFL에서는 데이터 스트림이 고정되고 순환적으로 재사용된다는 차이가 있다.
실험에서는 두 가지 처리 순서를 비교한다. ① 무작위(FIFO) 순서와 ② 라벨 기반 순환(cyclic) 순서이다. cyclic 순서는 같은 라벨을 가진 클라이언트를 연속적으로 처리하도록 설계했으며, 라벨 순서는 매 실험마다 무작위로 지정한다. 결과는 cyclic 순서가 전반적인 정확도와 망각 지표(BW, PG) 모두에서 우수함을 보여준다. 특히, 클라이언트 수(ϕ)가 작을수록 라벨 다양성이 보존되어 망각이 감소한다.
컷 레이어의 깊이 역시 망각에 큰 영향을 미친다. 얕은 컷 레이어(서버가 모델의 대부분을 담당)일수록 Part‑2가 더 많은 파라미터를 학습하게 되어, 순서에 따른 망각 현상이 두드러진다. 반대로 깊은 컷 레이어에서는 Part‑1이 더 큰 역할을 하므로, 기존 FL에서 관찰되는 파라미터 드리프트가 주된 문제로 전환된다.
이러한 분석을 바탕으로 제안된 Hydra는 Part‑2의 마지막 레이어를 라벨 그룹별로 다중 헤드 형태로 복제한다. 각 헤드는 해당 라벨이 지배적인 클라이언트 그룹의 활성화에만 업데이트되며, 학습이 끝난 후에는 헤드들을 평균하거나 가중합해 최종 추론에 사용한다. 이렇게 하면 동일 라벨에 대한 반복 학습이 헤드 내부에서 이루어져 intra‑CF를 완화하고, 전체 모델 파라미터는 공유되므로 추가 메모리·연산 비용이 최소화된다.
다양한 모델(MobileNetV1, ResNet101)과 데이터셋(CIFAR‑10/100, SVHN, TinyImageNet)에서 DL, Dirichlet, Sharding 등 세 가지 이질성 분할 방식을 적용해 실험했으며, Hydra는 기존 EWC, Scaffold, SplitFedv1/2 등 대비 평균 4~7%p의 정확도 향상을 달성했다. 또한 BW와 PG 지표에서도 현저히 낮은 값을 기록, 라벨 간 격차를 크게 줄였다. 코드와 실험 재현성을 위해 GitHub 저장소를 공개하였다.
요약하면, 본 연구는 SFL에서 데이터 이질성이 초래하는 라벨별 망각 현상을 체계적으로 규명하고, 처리 순서와 컷 레이어가 망각에 미치는 메커니즘을 실험적으로 입증하였다. Hydra라는 다중 헤드 기반 완화 기법은 이러한 문제를 효과적으로 해결하며, SFL을 실제 이기종 디바이스 환경에 적용할 때 발생할 수 있는 성능 불균형을 크게 완화한다.
댓글 및 학술 토론
Loading comments...
의견 남기기