저차원 리프시츠 제어 라우팅으로 전문가 모델 성능 극대화
초록
본 논문은 고차원 원시 표현에서 발생하는 표현 불일치와 스케일 민감성을 해결하기 위해, 저차원 잠재 라우팅 공간과 Lipschitz 제어 스코어링인 SIPS를 도입한 L2R 프레임워크를 제안한다. 다중 앵커 메커니즘을 통해 전문가의 표현력을 강화하고, 언어와 비전 MoE 모델에 적용한 실험에서 라우팅 안정성, 전문가 특화, 전체 성능이 일관되게 향상됨을 보인다.
상세 분석
L2R은 기존 MoE 라우터가 고차원 백본 피처 공간에서 선형 변환만으로 전문가 로그잇을 계산하는 구조적 한계를 정확히 짚어낸다. 고차원에서는 벡터 간 각도 집중 현상이 심해져 토큰 간 유사도가 거의 동일해지고, 이는 전문가 간 구분을 약화한다. 또한, 도트 프로덕트 스코어링은 토큰과 앵커의 노름에 민감해 스케일 변동이 라우팅 확률에 직접적인 온도 효과를 주어 불안정성을 야기한다. L2R은 두 문제를 동시에 해결한다. 첫째, 공유 프로젝션 W_q 를 통해 입력 x 를 저차원 r (예: r=2) 라우팅 공간으로 압축한다. 이 과정에서 라우팅 전용 서브스페이스가 학습되며, 고차원에서 발생하던 각도 집중이 크게 완화된다. 실험(Figure 2)에서 저차원 라우팅 공간의 토큰 쌍 코사인 유사도 분산이 크게 증가한 것을 확인할 수 있다. 둘째, SIPS는 로그잇 z_i 를 ϕ(∥q∥)·ψ(∥k_i∥)·cosθ_i 형태로 분해한다. 여기서 ϕ,ψ 는 정규화 후 포화(saturate) 함수를 적용해 노름의 영향을 상한으로 제한한다. 결과적으로 스케일 변동이 라우팅에 미치는 영향을 제어하면서도, 각도 정보는 그대로 활용해 전문가 구분력을 유지한다. 시각화(Figure 3)에서 SIPS는 점점 커지는 원형 등고선을 갖는 반면, 기존 도트 프로덕트는 무한히 확장되는 반평면을 형성해 라우팅이 불안정함을 보여준다. 또한, 다중 앵커 메커니즘은 하나의 전문가가 여러 앵커 k_i^j ( j=1…M )를 갖게 하여, 단일 파라미터 증가만으로 다양한 의미적 뷰를 포착한다. 이는 파라미터 효율성을 유지하면서 전문가의 표현력을 크게 확장한다. 전체 실험에서는 대규모 언어 MoE(OLMoE 기반)와 Vision Transformer 기반 MoE(ImageNet) 두 도메인에서 L2R이 기존 라우터 대비 라우팅 분산, 전문가 활성도 균형, 최종 정확도/퍼플렉시티 모두에서 유의미한 개선을 보였다. 특히, 라우팅 안정성 지표인 라우팅 로그잇의 분산이 30% 이상 증가했으며, 전문가 간 토큰 할당의 엔트로피가 상승해 과도한 전문가 편중을 완화했다. 이러한 결과는 L2R이 라우팅 공간 설계와 스코어링 함수를 동시에 최적화함으로써 MoE 모델의 근본적인 병목을 해소한다는 강력한 증거다.
댓글 및 학술 토론
Loading comments...
의견 남기기