연방 학습(FL)은 데이터 프라이버시를 해치지 않고도 대형 언어 모델(LLM)의 미세 조정을 가능하게 하지만, LLM의 커다란 크기는 리소스 제약이 있는 클라이언트, 예를 들어 휴대폰 기기에서는 온-디바이스 트레이닝이 실질적으로 불가능하게 합니다. 따라서, Mixture-of-Experts(MoE) 모델은 모델 학습 중 일부 레이어만 활성화하여 계산 부담을 줄이는 효율적인 방법으로 등장했습니다. 그러나 MoE를 FL 미세 조정에 통합하는 것은 여전히 세 가지 주요 과제를 안고 있습니다: i) 각 전문가의 로컬 미세 조정 성능에 대한 영향을 측정할 수 있는 신뢰성 있는 지표 부재로 인해 적절한 전문가 선택이 어렵습니다, ii) 다양한 입력 샘플에서 동적으로 활성화되는 전문가들이 리소스 제약 기기에서 계산 부담을 초래하기 때문에 클라이언트 간 이질적인 컴퓨팅 자원은 MoE 기반 LLM 미세 조정을 심각하게 방해합니다, iii) 클라이언트별로 다른 전문가 하위 집합과 라우팅 선호도는 맞춤형 업데이트와 일관되지 않은 게이팅 네트워크를 통해 전역 집약을 방해합니다. 이러한 과제를 해결하기 위해, 우리는 HFedMoE라는 이질적인 MoE 기반 FL 미세 조정 프레임워크를 제안합니다. 특정 클라이언트의 컴퓨팅 예산에 맞게 일부 전문가를 선택적으로 활성화하여 계산 효율성을 높이는 것입니다. 구체적으로, HFedMoE는 각 전문가의 미세 조정 성능 기여도를 바탕으로 중요도를 식별하고 정보 병목 관점에서 적응적 전문가 하위 집합을 선택합니다. 또한 중요한 요소에 가중치를 부여하여 활성화된 미세 조정 전문가와 게이팅 파라미터를 집약하기 위한 스팽서리 인식 모델 집약 전략도 설계되었습니다. 광범위한 실험 결과는 HFedMoE가 훈련 정확도와 수렴 속도 측면에서 최신 벤치마크를 능가함을 보여줍니다.
💡 논문 해설
1. **HFedMoE 프레임워크 도입:** HFedMoE는 모델의 효율적인 미세 조정을 위해 클라이언트별로 전문가 부분 집합을 선택하는 기능을 제공합니다. 이는 마치 다양한 재료를 사용하여 각 고객에게 맞춤형 요리를 만드는 것과 같습니다.
전문가 중요도 식별: HFedMoE는 각 전문가의 기여를 측정하고, 핵심적인 전문가들을 우선적으로 선택합니다. 이는 중요한 재료만을 골라서 사용하는 요리사와 유사한 방식입니다.
자원 인식 전문가 선택: 클라이언트 장치의 계산 자원에 맞춰 동적으로 중요한 전문가 부분 집합을 선택하여 효율성을 높이면서도 모델 성능을 저하시키지 않습니다. 이는 한정된 시간과 재료로 최고의 요리를 만드는 요리사와 같습니다.
📄 논문 발췌 (ArXiv Source)
연방 학습, 전문가 혼합, 대규모 언어 모델,
미세 조정.
서론
최근에 GPT와 LLaMA, DeepSeek와 같은 대규모 언어 모델(LLM)은 고복잡도 및 대규모 데이터셋을 처리하는 데 우수한 능력으로 인해 학계와 산업계에서 큰 관심을 받고 있다. LLM은 일반적으로 두 단계의 트레이닝 과정을 따른다. 첫 번째로, LLM은 거대한 텍스트 코퍼스 (예: 위키백과)를 사용하여 보편적인 언어적 및 의미적 표현을 학습한다. 두 번째로, 사전 학습된 LLM은 특정 작업에 맞게 특화된 데이터를 사용해 미세 조정된다. 그러나 LLM의 미세 조정을 위해 필요한 과도한 양의 데이터는 심각한 프라이버시 문제를 일으키며 이는 LLM 미세 조정을 구현하는 데 큰 장애물이 된다. 예를 들어, 클라이언트들은 종종 개인 건강 기록이나 재무 정보와 같은 프라이버시에 민감한 데이터를 공유하기를 꺼려한다.
위의 문제를 해결하기 위해 연방 학습(FL)이라는 대안이 등장했다. FL은 원시 데이터를 노출하지 않고 클라이언트 간 협업 트레이닝을 가능하게 한다. LLM 미세 조정에 대한 표준 FL 절차는 세 단계로 구성된다: i) 각 클라이언트가 로컬 개인 데이터셋을 사용해 LLM을 독립적으로 미세 조정한다; ii) 모든 클라이언트가 로컬에서 업데이트된 LLM을 중앙 서버에 업로드하여 모델 집계를 수행 (예: 가중 평균); iii) 다음 트레이닝 라운드 전에 집계된 LLM이 다시 클라이언트에게 분배된다. FL의 프라이버시 보호 기능에도 불구하고, LLM을 통한 FL을 사용한 미세 조정은 자원 제약 장치에서 계산적으로 매우 어렵다. 상업적 등급의 장치 GPU (예: NVIDIA Jetson Orin)는 LLaMA-2 7B와 같은 LLM을 미세 조정하는 데 필요한 처리 능력이 부족하다. 이는 거의 60GB의 GPU 메모리와 4K 토큰당 약 187.9 TFLOPs를 필요로 하며, 이는 모바일 클라이언트 장치의 기능을 초과한다.
style="width:8.5cm" />
클라이언트를 통해 MoE 기반 LLM을 FL로 미세 조정하는 워크플로.
전문가 혼합(MoE)은 자원 제약이 있는 모바일 클라이언트 장치에서 연방 학습(FL)을 통한 대규모 언어 모델(LLM)의 효율적인 미세 조정에 대한 구조적으로 효과적인 해결책을 제공한다. PEFT 방법과 달리 MoE는 모든 입력마다 소수의 전문가만 활성화하고 나머지를 비활성 상태로 유지한다 (예: 상위 1개 또는 상위 2개). 이 희소한 활성화는 모델의 전체 표현 능력을 유지하면서 동시에 계산 비용을 크게 줄여줍니다, 특히 LLM 미세 조정에서 가장 많이 발생하는 기울기 계산과 가중치 업데이트에 있어서. MoE의 이러한 계산적 이점 외에도, 입력에 따라 전문가 라우팅이 가능하기 때문에 FL에 잘 맞는 솔루션이다. 각 클라이언트 장치는 게이팅 네트워크를 통해 개인화된 전문가 부분 집합을 미세 조정한다. 그런 다음 모든 클라이언트 장치는 서버로 게이팅 네트워크와 전문가를 업로드하여 모델 집계를 수행하고 LLM을 업데이트한다. 이 설계는 대규모 밀집형 모델 (예: LLaMA-2 7B)의 성능과 비교해 계산량이 약 40% 미만으로 줄어들면서도 유사한 성능을 달성할 수 있다.
MoE를 FL에 통합하는 것은 큰 희망을 안겨주지만, 몇 가지 중요한 도전 과제가 있다. 첫째, 클라이언트별로 로컬 데이터셋이 상이하기 때문에 적절한 전문가를 선택하는 것이 쉽지 않다. 개별 전문가의 성능은 각 클라이언트에서 크게 다르며, 특정 전문가는 일부 클라이언트 데이터셋에 잘 일반화될 수 있지만 다른 클라이언트에는 거의 기여하지 않을 수도 있다. 결과적으로 공유된 게이팅 네트워크는 이러한 클라이언트별 차이를 포착하지 못하여 비효율적인 전문가 활용을 초래한다. 이 미스매치는 계산 자원의 낭비뿐만 아니라 모델 전체 성능 저하도 유발한다. 둘째, 클라이언트 간 계산 능력의 상이성은 MoE 기반 미세 조정을 통한 FL의 배포를 심각하게 제약한다. 입력 토큰에 따라 활성화되는 전문가 수가 다양하게 변동하여 (간단한 샘플에서는 몇 개에서 복잡한 샘플에서는 많은) 한 트레이닝 배치 내에서 동시에 활성화된 전문가의 수가 증가한다. 이는 자원 제약이 있는 클라이언트 장치의 계산 능력을 초과하여 미세 조정 실패를 일으키고 전체 트레이닝 효율성을 크게 낮춘다. 셋째, 다양한 컴퓨팅 리소스와 데이터 분포로 인해 클라이언트별 전문가 선택 및 라우팅 선호도가 다르므로 MoE 기반 FL에서 모델 집계를 수행하는 것이 특히 어렵다. 각 클라이언트는 로컬 데이터에 맞춰 정교한 일부 전문가만 미세 조정하고 나머지 전문가는 적게 학습되며, 클라이언트의 게이팅 네트워크는 다른 전문가 부분 집합을 선호하게 된다. 이러한 불일치는 집계 과정에서 심각한 간섭을 초래하여 전역 모델의 일반화 성능을 저하시킨다. 우리는 Sec. 2에서 이러한 도전 과제를 조사하기 위해 실험적 측정 연구를 수행한다.
위의 도전 과제를 해결하기 위해, 이 글에서는 HFedMoE라는 클라이언트별로 적절한 전문가 부분 집합을 선택하여 미세 조정하는 MoE 기반 FL 프레임워크를 제안합니다. 첫째, 각 클라이언트 장치에 대한 적절한 전문가 선택을 위해 각 전문가의 기여도를 측정하는 전문가 중요도 식별 방식을 도입한다. 둘째, 클라이언트 장치의 다양한 컴퓨팅 예산을 수용하기 위해 정보 병목 관점에서 각 장치의 컴퓨팅 예산에 맞는 중요한 전문가 부분 집합을 동적으로 선택하는 자원 인식 전문가 선택 방법을 제안한다. 마지막으로, 구조적 이질성으로 인해 발생하는 부분 전문가 업데이트 및 다양한 라우팅 선호도로 인한 집계 불일치를 완화하기 위해 중요한 전문가만 활성화된 클라이언트에서 업데이트하고 중요도 가중 기여로 게이팅 매개변수를 집계하는 희소성 인식 모델 집계 전략을 설계한다. 이 글의 주요 기여는 다음과 같다.
HFedMoE 프레임워크를 제안하여, 클라이언트별로 특정 부분 집합을 선택하고 트레이닝하도록 하여 이질적인 엣지 컴퓨팅 능력 아래에서 효율적인 LLM 미세 조정을 가능하게 한다.
각 전문가의 기여도를 측정하는 전문가 중요도 식별 방식을 설계하여 중요한 전문가들을 우선적으로 선택한다.
자원 인식 전문가 선택 방법을 제안하여, 트레이닝 중에 각 장치의 컴퓨팅 예산과 일치하도록 중요한 전문가 부분 집합을 동적으로 선택한다.
구조적 이질성으로 인한 성능 저하를 완화하기 위해 희소성 인식 모델 집계 전략을 개발하여 부분 전문가 업데이트 및 라우팅 불일치를 명시적으로 처리하도록 설계한다.
광범위한 실험을 통해 HFedMoE의 미세 조정 성능을 검증하고, 모델 정확도와 수렴 속도 측면에서 최신 프레임워크보다 우수함을 보여준다.
이 글은 다음과 같이 구성된다. Sec. 2는 MoE를 FL 네트워크에 통합하는 데 따른 도전 과제를 밝혀 HFedMoE의 설계를 설명한다. Sec. 3에서는 프레임워크 설계를 자세히 설명한 후, Sec. 5에서 성능 평가를 진행한다. 관련 연구 및 기술적 한계는 Sec. 6에서 논의된다. 마지막으로, 결론은 Sec. 7에 제시된다.
도전 과제와 동기 부여
이 섹션에서는 연방 학습을 통한 MoE 기반 LLM 미세 조정에 대한 주요 도전 과제를 설명하고 이를 극복하기 위해 HFedMoE의 설계 동기를 제공한다.
비효율적인 전문가 활용
MoE 기반 FL 미세 조정에서, 전문가 라우팅은 일반적으로 공유된 글로벌 게이팅 네트워크에 의해 제어된다. 이는 중앙 집중화된 조정을 가능하게 하지만 클라이언트별 데이터 분포의 상이성을 포착하는 데 실패한다. 각 전문가는 다른 의미적 특징에 초점을 맞추므로, 그 기여도 (즉, 제공하는 작업 관련 정보)는 클라이언트 간 크게 다르다. 그러나 글로벌 게이팅 네트워크는 모든 클라이언트의 평균 라우팅 성능을 최적화하므로 클라이언트별 선호도를 무시한다. 이 불일치는 일부 클라이언트에게 중요한 전문가들이 미활용되며, 자주 활성화된 전문가는 로컬에서 거의 기여하지 않아 결국 비효율적인 전문가 활용과 훈련 성능 저하를 초래한다.
비효율적 전문가 활용의 영향을 조사하기 위해, 우리는 Switch Transformer에 8개의 전문가를 사용하여 AGNews 데이터셋에서 동기 부여 연구를 수행했다. 글로벌 라우팅 (즉, 모든 클라이언트가 단일 게이팅 네트워크를 공유)과 클라이언트별 라우팅 (즉, 각 클라이언트가 독립적으로 게이팅 네트워크를 학습)을 비교했다. [fig:mtv_expert_selection]은 로컬 전문가 선택이 클라이언트 간 크게 다르다는 것을 보여주며, 이는 전문가의 지역 데이터셋에 대한 민감성을 나타낸다. 또한 [fig:mtv_expert_performance]는 게이팅 네트워크 집계가 로컬 전문가 선택을 변경하고 특정 클라이언트에게 중요한 전문가를 정확히 우선 순위 지정하지 못하여 지역 미세 조정 정확도 (그림의 노란 별)를 저하시킨다는 것을 보여준다. 이러한 관찰은 각 클라이언트별로 중요성을 식별하고 특정한 전문가를 선택적으로 활성화함으로써 효율성과 개인화 모두를 향상시키는 필요성을 강조한다.
AGNews 데이터셋에서 글로벌 또는 로컬 전문가 라우팅을 사용한 클라이언트별 전문가 활성화. 배치 크기 4.변동하는 배치 크기에 따른 활성화된 전문가 비율 및 수렴 성능 (훈련 라운드와 테스트 정확도)에 대한 변동하는 트레이닝 실패률.
이질적인 컴퓨팅 리소스
MoE 모델은 효율적인 LLM 미세 조정을 위해 전문가의 희소 활성화를 가능하게 하지만, 클라이언트 장치 간 계산 능력의 상이성 (하드웨어 구성 및 배포 환경 차이에서 비롯됨)은 큰 도전 과제를 제기한다. 하나의 토큰당 상위 1개 전문가만 선택적으로 활성화하더라도, 샘플 내 트레이닝 배치 내에서 한 토큰에서 다른 토큰으로 전문가 선택이 변동하면 동시에 활성화되는 전문가 수가 달라질 수 있다. 이는 MoE의 원래 의도된 희소 설계를 무효화시키고 자원 제약이 있는 클라이언트 (예: 상업 등급 GPU 장착)에 큰 계산 부담을 가한다. 결과적으로 이러한 리소스 요구와 이용 가능성이 불일치하여 FL의 장치 내 미세 조정은 실현불가능하다. 예를 들어, DeepSeekMoE-16B 모델을 트레이닝하려면 4K 토큰당 약 74.4T FLOPs가 필요하며, 대부분의 클라이언트 GPU의 처리 능력을 초과하여 전체 트레이닝 효율성을 저하시킨다.
클라이언트 컴퓨팅 능력의 이질성이 FL 트레이닝 성능에 미치는 영향을 더 잘 이해하기 위해 Switch Transformer를 사용해 AGNews 데이터셋에서 동기 부여 실험을 수행했다. 128개 고정 시퀀스 길이로 다양한 배치 크기에 따른 전문가 활성화를 분석한 결과, [fig:mtv_computing_activation]은 top-1 라우팅과 작은 배치 크기 (2)에서도 64개 중 약 15%의 전문가가 활성화된다는 것을 보여주며, 이는 계층당 하나의 전문가를 선택하는 원래 의도보다 훨씬 더 많은 수이다. 또한 [fig:mtv_computing_hetero]는 제한적인 자원을 가진 클라이언트들이 로컬 LLM 미세 조정을 종종 완료하지 못하고, 클라이언트 간 계산 능력의 심각한 불균형이 공동 학습의 전체 수렴 및 안정성을 크게 저하시킨다는 것을 보여준다. 이러한 결과는 자원 제약이 있는 MoE 미세 조정에 대한 비효율적인 토큰 단위 전문가 선택의 부정적 영향을 강조하고, 자원 인식 전문가 선택 메커니즘 설계를 동기 부여한다.
AGNews 데이터셋에서 클라이언트별로 전문가 활성화 빈도 및 집합 성능 비교.
모델 집계 불일치
통상적인 연방 학습에서는 모델 집계 방법이 동일한 모델 구조와 모든 매개변수에 대한 의미 있는 업데이트를 가정한다. 그러나 MoE 기반 FL에서, 각 클라이언트는 게이팅 네트워크를 통해 로컬 데이터 분포에 맞게 정교한 일부 전문가만 미세 조정하므로 많은 전문가들이 만지지도 않거나 사용되지 않는다. 또한 클라이언트별로 게이팅 네트워크가 다른 전문가 부분 집합을 선호하는 경향이 있어 각 클라이언트에서 전문가 선택을 위한 게이팅 매개변수 업데이트가 일관성 없게 된다. 이러한 이질적인 모델 구조를 직접 집계하면 파괴적인 간섭을 초래하여 전역 모델의 일반화 성능을 저하시킨다.
style="width:16cm" />
HFedMoE 프레임워크 개요. 각 클라이언트는 트레이닝 배치 내에서 전문가별 중요도를 측정하고, 장치의 컴퓨팅 예산에 맞춰 핵심적인 전문가 부분 집합을 선택하여 로컬 미세 조정을 수행한다.