가우시안 헤드 기반 원샷 연합학습: 통계만으로 고성능 모델 구현
초록
본 논문은 클라이언트가 클래스별 평균·공분산 등 충분통계만 전송하고, 서버가 이를 이용해 닫힌 형태의 가우시안 판별기(NB, LDA, QDA)와 합성 샘플 기반 경량 헤드(FisherMix, Proto‑Hyper)를 학습하는 원샷 연합학습 프레임워크 GH‑OFL을 제안한다. 랜덤 프로젝션 스케치를 통해 통신량을 크게 줄이며, 비동질적 데이터 분포에서도 강인한 정확도와 견고성을 보인다.
상세 분석
GH‑OFL은 연합학습의 핵심 병목인 다라운드 통신을 완전히 제거하고, 단일 라운드만으로 전역 모델을 구축한다는 점에서 혁신적이다. 클라이언트는 사전 학습된 인코더(ResNet, Transformer 등)로 로컬 데이터를 임베딩한 뒤, 각 클래스별 샘플 수(N_c), 평균 합계(A_c), 1차·2차 모멘트(B, S, D)를 집계한다. 이때 공개된 랜덤 프로젝션 행렬 R을 이용해 차원을 k(≪d)로 축소한 뒤 통계량을 전송함으로써 프라이버시와 대역폭을 동시에 보호한다. 서버는 집계된 전역 통계로부터 클래스별 평균 μ_c와 사전 확률 π_c를 구하고, 풀(pool) 공분산 Σ_pool을 추정한다.
세 가지 닫힌 형태의 가우시안 헤드는 각각 다른 공분산 가정을 사용한다. NB는 대각선 공분산만을 이용해 계산량을 최소화하고, LDA는 모든 클래스가 공유하는 Σ_pool을 사용해 선형 판별을 수행한다. QDA는 클래스별 전체 공분산 Σ_c를 활용해 가장 표현력이 높은 판별기를 제공한다. 모든 경우에 수치적 안정성을 위해 샤링(α·tr(Σ)/d·I) 기법을 적용한다.
또한, 서버는 Fisher 서브스페이스를 추정한다. 클래스 간 산포(S_B)와 클래스 내 산포(S_W=Σ_pool)의 일반화 고유값 문제를 풀어 상위 k개의 고유벡터 V를 얻고, z_f = Vᵀx 로 차원을 더욱 압축한다. 이 서브스페이스는 비동질적 데이터 분할에도 불변이며, 합성 샘플 생성과 경량 헤드 학습에 효율적이다.
합성 단계에서는 각 클래스별 가우시안(μ_f_c, Σ_f_c)을 기반으로 z_f ∼ N(μ_f_c + δ_c, τ_c² Σ_f_c) 를 샘플링한다. 여기서 δ_c는 상위 Fisher 방향으로 작은 이동을 주어 마진을 탐색하고, τ_c는 트레이스 비율에 따라 스케일링한다. 실제 데이터 없이 순수하게 통계만으로 생성된 샘플을 이용해 두 종류의 경량 헤드를 학습한다. FisherMix은 코사인 마진을 적용한 선형 분류기로, 정규화된 특징과 가중치 사이의 각도에 초점을 맞춰 클래스 간 경계를 넓힌다. Proto‑Hyper는 저차원 잔차 매트릭스 h(z_f)=V₂U₁z_f 를 학습해, 기본 가우시안 헤드(NB/LDA/QDA)의 출력에 작은 교정값을 더한다. 이때 온도 T와 가중치 α를 이용한 KD+CE 손실을 사용해 교사 모델(혼합 LD A/QDA)로부터 부드러운 라벨을 전달한다.
비동질성 모델링은 Dirichlet(α) 분할을 통해 실험적으로 검증된다. 통계량은 클라이언트 파티션에 독립적이므로, α값이 작아도 전역 통계와 Fisher 서브스페이스는 동일하게 유지된다. 따라서 GH‑OFL은 파티션에 따른 성능 변동이 거의 없으며, Monte‑Carlo 샘플링 및 옵티마이저의 미세한 차이만이 오차를 만든다.
실험에서는 CIFAR‑10/100, CIFAR‑100‑C, SVHN 등 다양한 이미지 데이터와 ResNet‑18, ViT‑Base 등 여러 백본을 사용했다. GH‑OFL‑CF(NB/LDA/QDA)와 GH‑OFL‑TR(FisherMix, Proto‑Hyper) 모두 기존 최첨단 원샷 FL 방법보다 높은 정확도와 견고성을 보였으며, 특히 비동질적(α≤0.1) 상황과 데이터 손상(CIFAR‑100‑C)에서도 성능 저하가 미미했다. 통신량은 클래스당 평균 2·k·C 실수값(≈수백 KB) 수준으로, 기존 FedAvg(수십 라운드) 대비 2~3 orders of magnitude 절감된다.
핵심 기여는 (1) 충분통계만으로 닫힌 형태 가우시안 판별기를 즉시 구축, (2) Fisher 서브스페이스 기반 합성 샘플로 경량 헤드를 데이터‑프리 학습, (3) 랜덤 프로젝션 스케치와 샤링을 통한 통신·수치 안정성 확보, (4) 비동질성 및 도메인 변동에 강인한 전반적 프레임워크 제공이다. 제한점으로는 클래스별 2차 모멘트(S) 전송이 필요한 경우 통신량이 약간 증가하고, 고차원 임베딩에서 Fisher 서브스페이스 차원 선택이 성능에 민감할 수 있다는 점이다. 향후 연구는 자동 차원 선택, 비가우시안 분포 모델링, 그리고 텍스트·시계열 데이터에 대한 확장을 목표로 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기