Mixture‑of‑Experts 로 복잡 구조를 효율적으로 학습한다
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 Mixture‑of‑Experts(MoE) 모델이 저차원 매니폴드와 희소 구조를 가진 복합 과제를 어떻게 효율적으로 근사할 수 있는지를 이론적으로 규명한다. 얕은 MoE는 차원 저주를 피하며 저차원 매니폴드 위의 함수를 근사하고, 깊은 MoE는 층당 E 개의 전문가를 두어 L 층으로 구성될 때 E^L 개의 조각함수를 표현할 수 있음을 보인다. 또한 게이팅 메커니즘, 전문가 수, 깊이 등 설계 요소가 표현력에 미치는 영향을 분석하고 실용적인 설계 가이드를 제시한다.
상세 분석
논문은 두 가지 구조적 사전 가정, 즉 저차원성과 희소성을 중심으로 MoE의 표현력을 정량화한다.
- 얕은 MoE와 저차원 매니폴드
- 저차원 매니폴드 M ⊂ℝ^D 에 대해 유한 개의 차트 {(U_i, φ_i)}_{i=1}^E 와 파티션 {ρ_i}를 이용해 f 를 지역화한다.
- 정리 4.8은 깊이 2, 각 전문가가 3‑layer m‑width ReLU 네트워크인 MoE가
\
댓글 및 학술 토론
Loading comments...
의견 남기기