Grassmannian 기반 전문가 라우팅 농도 제어로 스파스성 조절
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 전문가 라우팅을 Grassmannian 다양체 위의 Matrix Bingham 분포로 모델링하고, 농도 행렬 Λ를 하나의 연속적인 하이퍼파라미터로 활용해 라우팅 엔트로피와 스파스성을 정밀하게 제어한다. 변분 추론 기반의 불확실성 인식 라우터를 도입해 전문가 붕괴를 이론적으로 억제하고, 실험에서 0% 라우팅 붕괴와 향상된 로드 밸런스를 달성한다.
상세 분석
GrMoE는 기존 MoE 라우터가 1차원 가중치 벡터 wₑ와 softmax g(x)=softmax(Wᵣx) 로 토큰을 전문가에 할당하는 방식을 근본적으로 확장한다. 저자는 각 전문가 e를 kᵣ‑차원 서브스페이스
댓글 및 학술 토론
Loading comments...
의견 남기기