연방훈련에서 클러스터링 집약과 조절을 통한 사기저항형 민감도 인식 최소화

읽는 시간: 10 분
...

📝 원문 정보

- Title: FedSCAM (Federated Sharpness-Aware Minimization with Clustered Aggregation and Modulation) Scam-resistant SAM for Robust Federated Optimization in Heterogeneous Environments
- ArXiv ID: 2601.00853
- 발행일: 2025-12-29
- 저자: Sameer Rahil, Zain Abdullah Ahmad, Talha Asif

📝 초록

연방 학습(FL)은 데이터 프라이버시를 유지하면서 분산된 엣지 기기 간의 협력적 모델 훈련을 가능하게 합니다. 그러나 클라이언트들 사이에 통계적인 이질성이 존재하며, 이는 종종 비IID 레이블 분포로 나타나며 수렴과 일반화에 대한 주요 도전 과제를 제기합니다. 예리도 인식 최소화(SAM)가 FL에 도입되어 평평하고 더 견고한 극소점을 찾아내도록 설계되었지만, 기존 접근법들은 보통 모든 클라이언트에 대해 일률적인 펨터베이션 반경을 적용하며 클라이언트별 이질성을 무시합니다. 본 연구에서는 클라이언트별 이질성 점수에 따라 SAM의 펨터베이션 반경과 집합 가중치를 동적으로 조정하는 새로운 알고리즘, 연방 예리도 인식 최소화와 군집 집합 및 모듈레이션(FedSCAM)을 제안합니다. 각 클라이언트에 대한 이질성 지표를 계산하고 이를 반대로 펨터베이션 반경을 조정함으로써, FedSCAM은 높은 분산을 가진 클라이언트들이 글로벌 모델을 불안정하게 하는 것을 방지합니다. 또한, 글로벌 최적화 방향과 일치하는 업데이트를 우선시하는 이질성 인식 가중 집합 메커니즘을 도입하였습니다. 다양한 정도의 디리클레 기반 레이블 왜곡 조건 하에서 CIFAR-10 및 Fashion-MNIST에 대한 광범위한 실험을 통해, FedSCAM은 수렴 속도와 최종 테스트 정확도 측면에서 FedSAM, FedLESAM 등 최신 기준들과 경쟁력을 갖추는 것을 보여주었습니다.

💡 논문 해설

1. **동적 페더레이티브 학습**: 기존의 페더레이티드 학습은 모든 클라이언트에게 동일한 파라미터를 적용하는 반면, FedSCAM은 각 클라이언트의 데이터 특성에 따라 적응적으로 조정한다. 이는 마치 다양한 날씨와 지형에 맞게 자동차의 스프링을 조절하는 것과 같다. 2. **클라이언트 별 모멘텀**: FedSCAM은 각 클라이언트의 데이터 특성에 따라 다른 모멘텀 값을 사용한다. 이는 마치 레이스 트랙에서 차량의 속도와 방향을 조정하는 것과 같다. 3. **데이터 편향 감소**: FedSCAM은 클라이언트 간 데이터 분포의 불균형을 줄여, 모델이 더 넓게 일반화될 수 있도록 한다. 이는 마치 다양한 기후에서 성장할 수 있는 식물을 재배하는 것과 같다.

📄 논문 발췌 (ArXiv Source)

# 소개

스마트 기기의 보급과 데이터 프라이버시에 대한 관심 증가는 분산된 머신러닝을 위한 패러다임으로 페더레이티드 러닝(FL)을 채택하게 만든 주요 요인들이다. 표준 FL 환경에서, 중앙 서버는 일부 클라이언트에게 전역 모델을 배포하고, 이들은 개인 데이터에 대해 로컬 훈련을 수행한 후 모델 업데이트를 리턴한다. 서버는 일반적으로 Federated Averaging (FedAvg) 을 사용하여 이러한 업데이트를 집계하고, 이를 통해 전역 모델을 업데이트한다. 이 과정은 수렴할 때까지 반복된다.

FL이 프라이버시 제약에 대한 유망한 해결책을 제공함에도 불구하고, 중앙화된 훈련에는 존재하지 않는 새로운 도전을 초래한다. 이는 주로 클라이언트 데이터의 통계적 균질성이 결여되어 있기 때문이다. 현실 세계 시나리오에서 클라이언트 데이터는 독립적이거나 동일하게 분포되지 않는다(IID). 대신, 클라이언트는 종종 높은 편향을 가진 클래스 분포를 소유하며 이를 레이블 편향이라 부른다. 이러한 통계적 균질성 결여는 클라이언트의 로컬 목적 함수가 전역 목적 함수와 크게 차이나게 만든다. 따라서 클라이언트가 계산한 로컬 업데이트는 충돌하는 방향을 가리키고, 이로 인해 “클라이언트 드리프트” 현상이 발생하여 집계된 전역 모델은 수렴에 어려움을 겪거나 부분 최적 해에 정착할 가능성이 높다. 표준적인 최적화 기법인 Stochastic Gradient Descent (SGD)는 이러한 드리프트를 효과적으로 처리하는 데 부족하며, 이로 인해 균질하지 않은 FL 환경을 위해 특별히 설계된 알고리즘이 필요하게 된다.

최신 중앙화된 최적화의 발전, 특히 Sharpness-Aware Minimization (SAM) 은 “평평한” 최소점에 수렴하는 모델이 매개변수에 대한 작은 변동에도 불구하고 손실 함수가 상대적으로 불변인 영역에서 더 잘 일반화된다는 것을 보여주었다. 이러한 통찰은 FL에 FedSAM 형태로 적용되어 클라이언트들이 평평한 로컬 최소점을 찾도록 유도하며, 이는 이론적으로 집계된 전역 모델의 견고성을 향상시킨다. 그러나 표준 FedSAM 및 그 변형들은 모든 클라이언트에 대해 정적 perturbation radius $`\rho`$ 를 적용한다. 우리는 이러한 “일괄적” 접근 방식이 균질하지 않은 환경에서 부적합하다고 주장한다. 데이터의 균질성이 높거나 “잡음이 많은” 로컬 풍경을 가진 클라이언트는 더 작은 perturbation을 적용하여 발산을 방지해야 하며, 깨끗하고 대표적인 데이터를 소유한 클라이언트는 경사면을 더욱 적극적으로 탐색하기 위해 큰 perturbation을 적용할 수 있다.

이 한계점을 해결하기 위해 우리는 FedSCAM 이라는 균질성 인식 프레임워크를 제안한다. FedSCAM은 로컬 최적화 과정과 전역 집계 전략을 모두 조절하는 동적인 메커니즘을 도입한다. FedSCAM은 로컬 배치의 경사 노름에 기반하여 클라이언트별 균질성 점수를 계산하고, 이를 통해 각 클라이언트에게 SAM perturbation radius를 적응적으로 조정한다. 높은 균질성을 가진 클라이언트는 작은 반지름을 적용하며, 안정적인 클라이언트는 더 큰 반지름을 사용한다. 또한 FedSCAM은 표준 FedAvg의 샘플 크기 가중치 평균화를 포기하고, 클라이언트별 균질성 점수와 전역 모델 업데이트와의 일치도에 따라 가중치 집계 방법을 사용한다.

우리의 기여는 다음과 같다:

  • 페더레이티브 러닝에서 SAM에 대한 적응적 반지름 메커니즘을 제안하며, perturbation 크기는 동적으로 계산된 클라이언트 균질성 점수와 역비례한다.
  • 클라이언트 기여도를 그들의 균질성 점수와 전역 모델 업데이트에 대한 일치도에 따라 가중치를 부여하는 새로운 집계 전략을 설계했다. 이는 이상치의 영향력을 줄인다.
  • CIFAR-10과 Fashion-MNIST에서 디리클레 레이블 편향 분할($`\alpha \in \{0.1, 0.5, 1.0\}`$)을 사용하여 실험적 평가를 수행했으며, ResNet-18과 가벼운 CNN을 적용했다.
  • FedSCAM이 동일한 분할 및 하이퍼파라미터 아래에서 구현하고 실행된 강력한 기준선들과 경쟁적인 성능을 보여주었다. 이는 FedAvg 스타일의 집계 기준선(FedAvgM, q-FedAvg, FedLW, FedNoLoWe)과 SAM 가족 기준선(FedSAM, FedLESAM, FedWMSAM), 그리고 하이브리드 진단 기준선인 FedLWSAM을 포함한다.

본 논문의 나머지 부분은 다음과 같이 구성되어 있다: 섹션 2는 관련 작업 및 본 연구에서 사용된 기준선을 검토하고 있으며, 섹션 3은 제안된 FedSCAM 알고리즘을 자세히 설명한다. 섹션 4는 실험 환경과 구현 세부 사항을 설명하며, 섹션 5는 결과와 민감도 분석을 제시한다. 마지막으로, 섹션 6과 7은 우리의 발견의 함의를 논의하고 본 논문을 맺는다.

관련 작업

레이블 편향 균질성 하에서의 페더레이티브 최적화 방법들은 일반적으로 성능을 개선하기 위해 (i) 충돌 업데이트에 대한 집계를 안정시키거나, 또는 (ii) 더 잘 일반화되는 로컬 목표를 개선하는 두 가지 방법 중 하나로 접근한다. FedSCAM은 이들의 교차점에 위치하고 있다: 우리는 평평한 최소점을 찾는 데 초점을 맞춘 SAM을 각 클라이언트별로 조절하며, 동시에 클라이언트별 신뢰성 및 일치도 신호를 사용하여 집계 가중치를 재조정한다.

균질성 하에서의 집계와 클라이언트 재가중

FedAvg 는 표준 FL 기준선으로 각 선택된 클라이언트가 로컬 SGD로 몇 번의 에폭을 수행하고, 서버는 결과 업데이트를 각 클라이언트 샘플 수에 비례하는 가중치로 집계한다. 이 간단한 평균화는 균일하게 분포된 데이터 하에서는 잘 작동하지만, 레이블 편향이나 특징 변화가 있는 경우 서로 충돌하는 경사를 생성할 가능성이 있다. 그 결과 전역 모델은 라운드를 반복하면서 진동하고, 주로 지배적인 클라이언트 분포에 대한 과적합 해에 수렴하게 된다.

실용적인 안정화 방법은 FedAvgM 이다. 서버 측 모멘텀을 추가하여 집계 업데이트의 시퀀스를 부드럽게 만든다. 직관적으로, 모멘텀은 저주파 필터와 같은 역할을 하며, 균질하지 않은 클라이언트 목표에 의해 유발된 고변동성 업데이트 잡음을 감소시키고 라운드 간의 왔다갔다 움직임을 줄인다. 로컬 훈련이 공격적(더 많은 로컬 단계)하거나 참여가 부분적인 경우, 즉 업데이트 변동성을 증가시킬 수 있는 상황에서는 특히 유용하다.

q-FedAvg 는 균질성 문제를 “공정성” 관점에서 접근하여 손실에 따라 클라이언트를 재가중한다. 평균 클라이언트 목표를 최소화하는 것을 목표로 하는 대신, 현재 큰 손실을 입고 있는 클라이언트들에게 더 많은 중점을 둔다. 이는 학습이 서비스되지 않거나 어려운 분포로 향하게 할 수 있으며, 이는 최악의 클라이언트 정확도를 개선할 수 있지만 FedAvg에 비해 전역 최적화 트래젝토리를 변경할 수도 있다.

FedProx 는 “클라이언트 드리프트” 문제를 해결하기 위해 프록시 정규화자를 사용하여 로컬 목표를 수정한다. 구체적으로, 각 클라이언트는 현재 전역 모델에서 벗어나는 것을 처벌하는 형태의 항 $`\frac{\mu}{2}\|w-w^{(t)}\|_2^2`$ 를 포함한 로컬 손실을 최적화한다. 이는 데이터가 매우 균질하지 않거나 클라이언트가 다양한 계산량(불균일한 로컬 단계)을 가질 때 로컬 업데이트를 안정시키고, 로컬 해가 클라이언트의 분포에 과도하게 특화되는 것을 방지한다.

손실 기반 재가중은 또 다른 경량 접근법이다. FedLW 는 학습 손실에서 파생된 신뢰성 신호를 사용하여 높은 집계 가중치를 클라이언트에 부여하며, 잡음이 많거나 최적화가 잘 되지 않은 클라이언트 업데이트의 중요성을 낮추는 것을 목표로 한다. 우리는 또한 FedNoLoWe 를 추가 보고한다. 이는 정규화를 통해 가중치 신호를 안정시키며, 클라이언트나 라운드 간에 스케일 차이에 대한 민감도를 줄이는 손실 기반 가중 방법이다. 두 가지 방법은 샘플 수 카운팅 가중을 대체하는 “플러그인” 대안으로 볼 수 있으며, 균질성 문제 아래에서 집계를 더욱 견고하게 만들려는 시도다.

마지막으로 우리는 하이브리드 진단 기준선 FedLWSAM 을 보고한다. 이는 FedLW 스타일의 손실 가중치와 SAM 기반 로컬 최적화를 결합한다. 이러한 구성 기준선은 성능 향상이 주로 (i) 개선된 집계 가중치에서, 또는 (ii) 날카롭게 인식한 로컬 학습에서 발생하는지 분리할 수 있도록 한다. 구체적으로, 클라이언트는 SAM 업데이트를 로컬로 수행하고, 서버는 FedLW와 동일한 손실 기반 가중치 규칙을 사용하여 클라이언트 델타를 집계한다.

페더레이티브 학습에서 Sharpness-Aware Minimization

SAM 은 명시적으로 “평평한” 최소점을 찾음으로써 일반화 성능을 개선한다. 가장 나쁜 경우의 손실을 극단적인 방식으로 최소화하는 강건한 목표를 최적화한다:

MATH
\begin{equation}
\min_{w}\;\max_{\|\epsilon\|_2 \le \rho}\; L(w+\epsilon).
\end{equation}
클릭하여 더 보기

작동적으로, SAM은 두 단계 업데이트를 수행한다. 먼저, 경사 방향으로 가중치를 편차시킨다(규모가 $`\rho`$인 경사를 사용), 그런 다음 페르테드된 가중치에서 계산한 경사를 사용하여 하강 단계를 진행한다. 작은 매개변수 변동에 대해 매우 민감한 솔루션을 방지함으로써, SAM은 표준 ERM 학습보다 일반화하는 모델을 자주 생성한다.

FedSAM 은 클라이언트가 로컬로 SAM 기반 업데이트를 수행하고 서버에서 모델 델타를 집계함으로써 FL에 SAM을 가져온다. FedAvg의 통신 패턴을 반영한다. 균질하지 않은 FL 환경 하에서, FedSAM은 일반적으로 모든 클라이언트에게 단일 전역 perturbation radius $`\rho`$ 를 사용하며, 이는 클라이언트가 경사 크기, 잡음 및 로컬 곡률에 크게 차이를 보이는 경우이다. 이러한 환경에서 일괄적인 $`\rho`$ 는 불안정한 클라이언트를 under-regularize하거나 안정적인 클라이언트를 over-regularize할 수 있어 연방 내부의 견고성과 정확도 사이에 부적합한 타협을 초래한다.

효율성을 목표로 하는 FL에서 SAM 방법은 FedLESAMFedWMSAM 이 있다. FedLESAM은 일관된 편차 방향을 재사용하거나 추정하여 추가적인 후방/전방 비용을 완화하고, FedWMSAM은 perturbation 메커니즘에 모멘텀을 주입하여 단계 간 perturbation 동역학을 부드럽게 만든다. 이러한 방법들은 FL에서 SAM의 실용적 병목인 로컬 단계 당 추가 계산 비용을 해결하려는 시도이며, 동시에 sharpness-aware 학습의 일반화 이점을 유지하려고 한다.

FedSCAM의 위치

FedSCAM은 클라이언트별 조절로 구분된다. 우리는 (i) 초기 배치 경사 노름 측정을 통해 가볍게 클라이언트 균질성 점수를 추정하고, (ii) 각 클라이언트가 자신의 $`\rho_i`$ 를 사용하는 적응적 SAM을 수행하며, (iii) 선택적으로 저차원 업데이트 요약을 사용하여 클러스터링된 충돌 감소 단계로 시작할 수 있는 균질성 및 일치도 인식 집계를 수행한다. 구현에서 클라이언트별 초기 반지름은 $`\rho_{\mathrm{pilot},i} \leftarrow \frac{0.5\,\rho_{\max}}{1+\alpha_\rho h_i}`$ 로 설정되어 전체 클라이언트 별 조절 이전에 보수적인 개별 클라이언트 초기화를 제공한다.

FedSCAM 알고리즘

표기법.

$`w_t`$는 라운드 $`t`$의 전역 모델을 나타내며, $`\mathcal{S}_t`$는 선택된 클라이언트 세트이다. 각 클라이언트 $`i`$는 로컬 데이터셋 크기 $`N_i`$와 로컬 데이터 $`\mathcal{D}_i`$를 가지고 있다. 클라이언트들은 모델 업데이트 $`\Delta_i = w_i - w_t`$를 반환한다.

구현 개요.

FedSCAM은 각 라운드에서 세 가지 핵심 구성 요소를 갖는다: (1) 경사 노름 측정을 사용한 균질성 추정; (2) 각 클라이언트가 자신의 $`\rho_i`$를 사용하는 적응적 SAM; (3) 선택적으로 클러스터링된 충돌 감소 단계로 시작되는 균질성 및 일치도 인식 집계.

핵심 설계 결정: 클라이언트별 반지름 조절.

균질하지 않은 환경에서 원시 경사 크기와 업데이트 분산은 클라이언트 간에 다릅니다. 고정된 $`\rho`$는 불안정한 클라이언트를 과도하게 편차시켜 드리프트를 증가시킬 수 있습니다. FedSCAM은 $`h_i^{\mathrm{adj}}`$가 크면 $`\rho_i`$를 축소하여 각 클라이언트에 대한 “신뢰 스로틀” 역할을 합니다.

일치도 인식 조정. 모든 “큰 경사"는 해롭지 않다: 만약 클라이언트의 시험 방향이 전역 방향과 일치하면, 그들은 편향이 있더라도 유용한 신호를 제공할 가능성이 높습니다. $`c_i>0`$일 때 $`h_i^{\mathrm{adj}}`$를 줄임으로써 FedSCAM은 유용한 클라이언트의 과도한 처벌을 피한다.

클러스터링된 충돌 감소. 업데이트가 자연스럽게 그룹화될 때(예: 비슷한 레이블 하위집합으로 인해), 모순적인 쌍이 발생하여 진전을 방해할 수 있다. 클러스터링 단계는 저차원 요약을 사용하고 심각한 내부 클러스터 충돌을 저렴하게 억제한다.

방법론 및 실험

우리는 제어된 레이블 편향 균질성 하에서의 감독 학습 이미지 분류를 통해 FedSCAM을 평가한다. 우리의 목표는 균질성 인식 SAM 조절과 집계가 언제 도움이 되며, SAM에 초점을 맞춘 기준선 및 집계에 초점을 맞춘 기준선 대비 계산/정확도 교역 관계를 이해하는 것이다.

실험 설정

데이터셋.

우리는 CIFAR-10과 Fashion-MNIST(FMNIST)에서 평가한다. 이 두 가지는 통계적 균질성 하에서의 페더레이티브 최적화에 대한 표준 테스트베드로 널리 사용되는 이미지 분류 벤치마크다. 이러한 데이터셋을 사용하는 두 가지 목적은 다음과 같다: (i) 그들은 서로 다른 난이도와 시각적 구조(자연 사진 대 기라시 의상)를 제공하고, (ii) 이들 모두는 FL과 FedSAM 가족 기준선의 많은 것들이 동일한 벤치마크에 대한 결과를 보고하는 것을 가능하게 한다. 우리는 레이블 편향 비 균질 분할을 시뮬레이션하기 위해 클래스 비율에 대한 디리클레 분포 $`Dir(\alpha)`$를 사용한다. 작은 $`\alpha`$는 더 편향된(더 균질성 있는) 클라이언트 레이블 분포를 생성한다. 우리의 실험에서, $`\alpha=0.1`$은 극단적인 균질성을 나타내며, $`\alpha=0.5`$는 중간 균질성을 나타내며, $`\alpha=1.0`$은 약한 균질성(대비하여 $`\alpha=0.1`$에 비해 균일한 분포)을 나타낸다. 신뢰 검사 및 시각적 진단을 위해, 우리는 효과적으로 IID와 유사한 구성($`\alpha=1`$과 같은)도 포함한다. 클라이언트의 최소 샘플 수를 강제로 설정하여 퇴화된 클라이언트(부록 참조)를 피한다.

모델

우리는 가벼운 및 깊은 환경을 모두 커버하기 위해 두 가지 아키텍처를 사용한다.

ResNet-18. 표준 ResNet-18 설계(일반적으로 CIFAR/FMNIST 변형에 대해 사용됨)를 사용한다: 초기 스템(합성곱 + 정규화 + 비선형), 그 다음 4개의 잔차 단계와 각 단계당 기본 잔차 블록 두 개, 그리고 마지막으로 전역 평균 풀링 + 선형 분류기. 구체적으로 네트워크는 다음과 같은 구성 요소를 포함한다: (i) 첫 번째 합성곱 층(conv $`\rightarrow`$ BN $`\rightarrow`$ ReLU), (ii) 64 채널의 기본 블록 두 개를 가진 잔차 Stage 1, (iii) 128 채널의 기본 블록 두 개를 가진 잔차 Stage 2(첫 번째 블록에서 다운샘플링), (iv) 256 채널의 기본 블록 두 개를 가진 잔차 Stage 3


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



Figure 5



Figure 6



Figure 7



Figure 8



Figure 9



Figure 10



Figure 11



Figure 12



Figure 13



Figure 14



Figure 15



Figure 16



Figure 17



Figure 18



Figure 19



Figure 20



Figure 21



Figure 22



Figure 23



Figure 24



Figure 25



Figure 26



Figure 27



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키