연합학습 클러스터 손실 기반 클라이언트 선택
초록
FedLECC는 라벨 분포 유사성을 기준으로 클라이언트를 클러스터링하고, 각 클러스터와 클라이언트의 로컬 손실을 우선순위로 삼아 제한된 수의 클라이언트를 선택하는 경량화된 전략이다. 라벨 스큐가 심한 비IID 환경에서 테스트 정확도를 최대 12% 향상시키고, 통신 라운드와 전체 통신량을 각각 약 22%와 50% 감소시킨다.
상세 분석
FedLECC는 비IID 데이터, 특히 라벨 스큐가 심한 상황에서 연합학습의 효율성을 높이기 위해 두 가지 핵심 요소를 결합한다. 첫 번째는 클라이언트들의 라벨 히스토그램을 수집해 Hellinger 거리로 유사성을 측정하고, OPTICS 기반의 클러스터링을 수행함으로써 데이터 분포가 비슷한 클라이언트를 그룹화한다. 이 과정은 라벨 분포만을 사용하므로 프라이버시 위험이 낮으며, 클러스터 수를 사전에 지정할 필요가 없어 실제 배포 환경의 동적 특성에 잘 맞는다. 두 번째는 각 클라이언트가 로컬 학습 후 보고하는 평균 손실값을 활용해 클러스터와 클라이언트를 순위화한다. 손실이 높은 클러스터는 데이터 분포가 현재 글로벌 모델에 가장 큰 도전을 제공한다는 의미이며, 클러스터 내부에서도 손실이 큰 클라이언트를 우선 선택한다. 이렇게 하면 ‘정보량(informativeness)’과 ‘다양성(diversity)’를 동시에 확보할 수 있다.
알고리즘은 매 라운드마다 J개의 클러스터와 각 클러스터당 ⌈m/J⌉개의 클라이언트를 선택한다. 클러스터가 부족할 경우 손실 순위가 높은 클라이언트를 다음 클러스터에서 보충한다는 점이 실용적이다. FedLECC는 기존 연합학습 파이프라인에 최소한의 오버헤드만 추가한다. 라벨 히스토그램 전송은 라벨 수에 비례한 작은 데이터량이며, 클러스터링은 초기 한 번만 수행하거나 데이터 분포가 크게 변할 때만 재계산한다.
실험에서는 MNIST, FMNIST 등 10클래스 이미지 데이터셋을 사용해 라벨 스큐 비율을 0.10.5로 조절한 상황에서 FedLECC를 기존 무작위 샘플링, Power‑of‑Choice, HACCS, FedCLS 등과 비교하였다. 결과는 테스트 정확도가 평균 612% 상승하고, 목표 정확도에 도달하는 라운드 수가 20% 내외 감소했으며, 전체 전송량은 절반 수준으로 감소함을 보여준다. 이는 클러스터 기반 다양성 보장이 손실 기반 정보량 선택과 시너지 효과를 내어, 비IID 환경에서 과도한 클라이언트 중복 선택을 방지하고, 어려운 데이터 모드에 집중함으로써 수렴 속도를 가속화한다는 것을 의미한다.
또한 FedLECC는 로컬 학습 절차나 서버 측 집계 방식을 변경하지 않으므로 FedAvg, FedProx 등 기존 알고리즘과 바로 결합 가능하다. 이론적 수렴 보장은 기존 편향된 클라이언트 선택 분석을 그대로 적용할 수 있으며, 실험적으로도 안정적인 학습 곡선을 확인하였다. 향후 연구에서는 라벨 외의 특징 기반 거리 측정, 동적 클러스터 재구성, 그리고 차등 프라이버시 보호 메커니즘을 통합해 보안성을 강화할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기