지연 모멘텀 집계: 부분 참여 환경에서 통신 효율적인 비잔틴 견고 연합 학습
초록
본 논문은 클라이언트가 임의로 참여·불참하는 부분 참여(Federated Learning) 상황에서, 샘플링된 클라이언트가 비잔틴 다수를 차지하더라도 서버가 전체 비잔틴 비율을 소수로 유지하도록 하는 ‘지연 모멘텀 집계(Delayed Momentum Aggregation)’ 원리를 제안한다. 이를 기반으로 설계된 DeMoA 옵티마이저는 추가 통신 비용 없이 캐시된 모멘텀을 활용해 강인한 집계와 변동 감소를 동시에 달성한다. 이론적 수렴 분석과 CIFAR‑10/ResNet‑18 실험을 통해 20 % 비잔틴 비율·10 % 부분 참여율에서도 기존 방법을 능가하는 정확도를 보이며, 비잔틴 공격에 대한 견고성을 입증한다.
상세 분석
DeMoA는 기존 비잔틴‑강인 연합 학습이 전제하는 “전 클라이언트 참여” 가정을 완전히 탈피한다는 점에서 혁신적이다. 핵심 아이디어는 서버가 매 라운드마다 샘플링된 클라이언트의 최신 모멘텀과, 최근에 업데이트된 비샘플링 클라이언트의 ‘지연된’ 모멘텀을 함께 집계한다는 것이다. 이때 지연된 모멘텀은 (m_{t-\tau(i,t)}^{i}) 형태로, (\tau(i,t))는 해당 클라이언트가 마지막으로 샘플링된 시점과 현재 라운드 사이의 간격을 의미한다. 서버는 이러한 지연 모멘텀에 대해 사전 처리 함수 (P(\cdot))를 적용해 암묵적 모멘텀 효과를 보정한다.
이 설계는 두 가지 중요한 효과를 만든다. 첫째, 비샘플링 클라이언트의 모멘텀을 포함함으로써 매 라운드마다 서버가 관측하는 전체 클라이언트 집합의 비잔틴 비율이 전역 비율 (\delta<\frac12)을 유지한다. 따라서 비잔틴 다수가 샘플링된 라운드에서도 강인한 집계기(예: 좌표별 중앙값, Krum 등)가 정상적으로 작동한다. 둘째, 지연 모멘텀을 적절히 가중치 조정하면, 작은 스텝 사이즈 하에서 지연된 모멘텀은 현재 그라디언트 (\nabla f_i(x_t))의 좋은 근사값이 된다. 이는 변동 감소 효과를 제공해, 비잔틴 클라이언트가 스토캐스틱 노이즈 안에 작은 교란을 삽입하는 ALIE와 같은 시간‑결합 공격을 무력화한다.
DeMoA의 구체적인 업데이트는 다음과 같다. 각 라운드 (t)에서 서버는 각 클라이언트를 독립적으로 확률 (p_t)로 샘플링하고, 샘플링된 클라이언트는 모멘텀을 ((1-\alpha_t p_t)m_{t-1}^i + \alpha_t \nabla f_i(x_{t-1};\xi_t^i)) 로 갱신한다. 비샘플링 클라이언트는 모멘텀을 ((1-\alpha_t p_t)m_{t-1}^i) 로만 감쇠시킨다. 여기서 (\alpha_t)는 로컬 모멘텀 파라미터이며, ((1-\alpha_t p_t)) 형태를 선택한 이유는 샘플링 확률에 의해 발생하는 변동을 기대값 수준에서 상쇄시켜, 전체 모멘텀 업데이트의 분산을 (\alpha_t^2 p_t(1-p_t)|\nabla f_i|^2) 로 제한하기 위함이다.
이 설계는 메모리와 통신 측면에서도 효율적이다. 서버는 각 클라이언트당 하나의 모멘텀 벡터만 보관하면 되며, 클라이언트와의 추가적인 파라미터 교환이 필요하지 않다. 따라서 기존 전 참여 기반 비잔틴 방어 기법과 동일한 통신 비용을 유지하면서도, 부분 참여 상황에서의 견고성을 확보한다.
이론적 분석에서는 가정 2.1(L‑smooth), 2.2(편향 없는 제한된 분산), 2.3(이질성) 하에, (δ,c)-강인 집계기와 결합된 DeMoA가 수렴 속도 (\mathcal{O}\big(\frac{1}{\sqrt{T}}\big)) 를 달성함을 증명한다. 특히 정리 3.1은 비잔틴 비율 (\delta<\frac12) 와 임의의 부분 참여 확률 (p_t) 에 대해, 최적화 오차가 (\mathcal{O}\big(\frac{1}{\sqrt{T}} + \frac{c\delta}{\sqrt{T}}\big)) 로 제한된다는 것을 보여준다. 이는 기존 방법이 비잔틴 다수 라운드에서 완전히 붕괴되는 것과 대조적이다.
실험에서는 CIFAR‑10 데이터셋에 ResNet‑18 모델을 적용해, 비잔틴 비율 20 %와 부분 참여율 10 % 상황을 시뮬레이션했다. DeMoA는 평균 정확도 78 % 이상을 유지했으며, 기존의 FedAvg‑Median, FedCM, 그리고 최신 비잔틴 방어 기법(예: Bulyan, Multi‑Krum)들은 30 % 이하로 급락하거나 학습이 발산했다. 또한 지연 모멘텀의 최대 지연 (\tau_{\max}) 를 5 라운드 이하로 제한했을 때 성능 저하가 거의 없었으며, 이는 실제 시스템에서 클라이언트 연결 불안정성을 충분히 감당할 수 있음을 시사한다.
요약하면, DeMoA는 “지연된 모멘텀을 활용해 전체 클라이언트 집합을 간접적으로 관측한다”는 간단하지만 강력한 원리를 통해, 부분 참여 환경에서도 비잔틴 공격에 대한 이론적·실험적 견고성을 동시에 달성한다.
댓글 및 학술 토론
Loading comments...
의견 남기기