FedDES 그래프 기반 동적 앙상블 선택을 통한 개인화 연합 학습

FedDES는 분산 환경에서 서로 다른 구조의 모델들을 공유하고, 그래프 신경망 메타러너를 이용해 각 테스트 샘플마다 가장 유능한 동료 모델들을 동적으로 선택·가중치 부여하는 개인화 연합 학습 프레임워크이다. 이 접근은 샘플 수준의 개인화를 제공함으로써 이질적인 데이터 분포에서 발생하는 부정 전이(negative transfer)를 효과적으로 억제한다. CIFAR‑10 및 eICU 데이터셋 실험에서 기존 개인화 연합 학습 기법들을 크게 능가한다…

저자: Brianna Mueller, W. Nick Street

FedDES 그래프 기반 동적 앙상블 선택을 통한 개인화 연합 학습
본 논문은 연합 학습(Federated Learning) 환경에서 통계적 이질성으로 인한 부정 전이(negative transfer) 문제를 해결하고자, 샘플 수준의 개인화를 제공하는 새로운 프레임워크 FedDES(Federated Dynamic Ensemble Selection)를 제안한다. 기존의 개인화 연합 학습(pFL) 방법들은 전역 모델과 로컬 모델을 혼합하거나, 피어 모델에 동일 가중치를 부여하는 방식으로 클라이언트 전체에 동일한 개인화 전략을 적용한다. 이러한 접근은 (1) 모델 구조가 동일해야 한다는 제약, (2) 피어 모델의 유용성이 샘플마다 다를 수 있다는 점을 무시한다는 한계를 가진다. FedDES는 이러한 한계를 두 축으로 극복한다. 첫 번째는 완전한 모델 이질성을 허용한다는 점이다. 각 클라이언트는 자신에게 최적화된 임의의 아키텍처(예: CNN, MLP, 트리 기반 모델 등)를 사용해 다수의 베이스 클래스ifier를 학습하고, 피어‑투‑피어(P2P) 방식으로 모델을 교환한다. 파라미터가 아닌 출력(예측 확률) 공간에서 앙상블을 수행하기 때문에, 모델 구조가 달라도 동일한 레이블 집합만 공유하면 된다. 두 번째는 샘플‑레벨 동적 앙상블 선택이다. 이를 위해 FedDES는 이질 그래프(hybrid graph)를 구축한다. 그래프의 노드는 두 종류로 구성되는데, 하나는 로컬 데이터 샘플, 다른 하나는 전역 풀에 포함된 모든 베이스 클래스ifier이다. 엣지는 두 종류가 있다. 첫 번째는 샘플‑샘플 엣지로, 각 샘플을 결정공간(decision‑space)에서의 출력 벡터(모든 모델의 확률값을 연결한 벡터)로 매핑한 뒤, 클래스별 k‑NN을 이용해 클래스 균형을 맞춘 이웃을 연결한다. 이는 클래스 불균형에 강인한 지역 구조를 제공한다. 두 번째는 샘플‑모델 엣지로, 각 모델이 해당 샘플을 정확히 예측했는지를 0/1 메타라벨로 표시한다. 이렇게 구축된 이질 그래프는 GNN 메타러너의 입력이 된다. FedDES는 Graph Attention Network v2(GATv2)를 기반으로 하는 GNN을 사용한다. GATv2는 쿼리 노드(샘플)마다 이웃의 중요도를 동적으로 재계산하므로, 특정 샘플에 대해 가장 관련성이 높은 모델과 이웃 샘플을 강조한다. GNN은 여러 레이어를 거치며 샘플 노드와 모델 노드 간의 정보를 교환하고, 최종적으로 각 샘플에 대한 모델 가중치 벡터를 출력한다. 이 가중치는 0에 가까우면 해당 모델을 배제하고, 1에 가까우면 완전 활용한다는 의미이며, 실제 예측 단계에서는 가중치가 곱해진 모델들의 확률을 합산해 최종 예측을 만든다. 따라서 동일 클라이언트 내에서도 샘플마다 최적의 피어 모델 조합이 달라지며, 부정 전이가 발생할 가능성이 높은 모델은 자동으로 억제된다. 학습 단계에서는 각 클라이언트가 로컬 데이터의 일부를 메타러너 훈련용(DSEL)으로 사용하고, 나머지는 로컬 모델 학습 및 검증에 활용한다. 또한, 서로 다른 아키텍처 간의 출력 스케일 차이를 보정하기 위해 온도 스케일링(temperature scaling)으로 각 모델의 확률을 캘리브레이션한다. FedDES는 완전한 비동기식 P2P 통신을 전제로 하며, 중앙 서버 없이도 모델 교환과 그래프 업데이트가 가능하도록 설계되었다. 실험에서는 CIFAR‑10 이미지 분류와 eICU(중환자실) 의료 데이터 두 가지 벤치마크를 사용하였다. CIFAR‑10에서는 10개의 클라이언트를 비IID(라벨 분포가 서로 다름)하게 구성하고, 각 클라이언트가 서로 다른 CNN 구조를 사용하도록 설정하였다. FedDES는 기존 pFL 기법들(예: FedAvg, Ditto, Per‑FedAvg, FedProto 등) 대비 평균 정확도에서 3~5%p 향상을 보였으며, 특히 데이터 분포가 크게 다른 클라이언트에서 부정 전이가 거의 사라지는 현상을 관찰했다. eICU 실험에서는 사망 예측 AUROC을 평가 지표로 사용했으며, FedDES는 기존 방법 대비 0.02~0.04의 AUROC 상승을 기록했다. 추가적인 ablation study에서는 (1) GNN 없이 정적 평균 앙상블을 사용했을 때 성능 저하, (2) 온도 스케일링을 제외했을 때 그래프 구축의 불안정성, (3) 클래스‑균형 k‑NN 대신 전역 k‑NN을 사용했을 때 샘플‑레벨 개인화 효과 감소 등을 확인하였다. 논문은 또한 FedDES가 통신 비용 측면에서 기존 P2P 기반 방법과 비슷하거나 약간 낮은 오버헤드를 보이며, 모델 이질성으로 인한 추가 연산 비용이 GNN 추론 단계에서만 발생함을 강조한다. 마지막으로, FedDES는 모델 아키텍처의 자유도, 비동기식 통신, 샘플‑레벨 개인화라는 세 축을 동시에 만족시키는 최초의 프레임워크로, 의료, 금융, 자율주행 등 데이터 이질성이 심한 실제 연합 학습 시나리오에 적용 가능함을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기