AnyExperts 중요도 기반 동적 라우팅을 통한 멀티모달 MoE 효율 최적화

멀티모달 혼합전문가(MoE) 모델은 대규모 비전‑언어 시스템을 확장 가능하고 효율적으로 구현할 수 있는 유망한 접근법이다. 그러나 기존 방법은 토큰당 고정된 수의 전문가만을 활성화하는 경직된 라우팅 전략에 의존해, 모달리티 간 의미적 중요도의 이질성을 무시한다. 이로 인해 의미가 중복된 토큰이 핵심 토큰과 동일한 연산량을 소비하는 비효율이 발생한다. 이를

AnyExperts 중요도 기반 동적 라우팅을 통한 멀티모달 MoE 효율 최적화

초록

멀티모달 혼합전문가(MoE) 모델은 대규모 비전‑언어 시스템을 확장 가능하고 효율적으로 구현할 수 있는 유망한 접근법이다. 그러나 기존 방법은 토큰당 고정된 수의 전문가만을 활성화하는 경직된 라우팅 전략에 의존해, 모달리티 간 의미적 중요도의 이질성을 무시한다. 이로 인해 의미가 중복된 토큰이 핵심 토큰과 동일한 연산량을 소비하는 비효율이 발생한다. 이를 해결하고자, 우리는 AnyExperts라는 새로운 온‑디맨드, 예산 인식(dynamic routing) 프레임워크를 제안한다. AnyExperts는 토큰의 의미적 중요도에 따라 토큰당 할당되는 전문가 슬롯 수를 가변적으로 조정한다. 동시에 전체 슬롯 수는 사전에 정의된 범위 내에 고정하고, 각 슬롯은 실제 전문가(real expert) 혹은 가상 전문가(virtual expert) 중 하나로 채워지며, 가상 전문가 비율은 최대 20%로 제한한다. 모델은 의미가 풍부한 영역에는 더 많은 실제 전문가를, 중복된 내용에는 가상 전문가를 활용함으로써 실시간으로 실‑가상 비율을 최적화한다. 시각 이해, 음성 이해, 자연어 이해 등 다양한 멀티모달 과제에 대해 동일한 연산 예산 하에서 AnyExperts는 성능을 향상시킨다. 일반 이미지·비디오 과제에서는 실제 전문가 활성화를 40% 감소시키면서도 정확도가 유지되었으며, 텍스트‑집중 과제(OCR·NLP)에서는 실제 전문가 사용량을 10% 줄이면서도 성능 저하가 없었다. 이러한 결과는 중요도 기반 세밀한 전문가 할당이 멀티모달 MoE 모델의 효율성과 효과성을 동시에 크게 개선함을 보여준다.

상세 요약

AnyExperts 논문은 기존 멀티모달 MoE 모델이 가지고 있던 두 가지 근본적인 한계를 짚어낸다. 첫 번째는 ‘고정 라우팅’이다. 대부분의 MoE 설계는 토큰당 일정 수(예: 2~4개의) 전문가만을 선택하도록 강제한다. 이는 구현이 단순하고 하드웨어 스케줄링이 용이하다는 장점이 있지만, 토큰마다 의미적 중요도가 크게 다를 수 있다는 사실을 무시한다는 단점이 있다. 예를 들어, 이미지에서 배경 픽셀이나 영상에서 정적 프레임은 모델이 별다른 정보를 추출할 필요가 없지만, 동일한 연산량을 할당받게 된다. 두 번째는 ‘전문가 사용량의 불투명성’이다. 실제 전문가가 얼마나 많이 사용되는지, 가상(즉, 패스‑스루) 전문가가 어느 정도 차지하는지는 사전에 명시되지 않는다. 결과적으로 연산 비용이 급격히 늘어나거나, 반대로 과도하게 절감돼 성능이 저하될 위험이 존재한다.

AnyExperts는 이러한 문제를 ‘예산 인식(dynamic budgeting)’이라는 새로운 패러다임으로 해결한다. 핵심 아이디어는 토큰의 의미적 중요도를 사전에 추정하거나 라우팅 단계에서 실시간으로 평가한 뒤, 그 중요도에 비례해 전문가 슬롯 수를 가변적으로 할당하는 것이다. 여기서 ‘전문가 슬롯’은 실제 전문가와 가상 전문가가 혼합된 형태이며, 가상 전문가 비율을 20% 이하로 제한함으로써 연산 폭발을 방지한다. 가상 전문가는 기본적으로 파라미터가 없는 패스‑스루 경로로, 입력을 그대로 다음 레이어에 전달한다. 따라서 의미가 낮은 토큰은 대부분 가상 전문가에 의해 처리되고, 의미가 높은 토큰은 다수의 실제 전문가가 집중적으로 작동한다.

구현 측면에서 AnyExperts는 두 단계 라우팅 메커니즘을 도입한다. ① 중요도 스코어 계산: 멀티모달 입력(이미지, 오디오, 텍스트)을 각각의 프리트레인된 인코더를 통해 특징 벡터로 변환하고, 이를 기반으로 토큰별 중요도 점수를 산출한다. ② 슬롯 할당 및 전문가 선택: 중요도 점수를 정규화하여 총 슬롯 수(예: 4~6)를 결정하고, 그 중 실제 전문가 수를 비율적으로 배분한다. 실제 전문가 선택은 기존의 소프트맥스 기반 라우팅과 동일하게 수행되며, 가상 전문가 슬롯은 자동으로 채워진다.

실험 결과는 세 가지 도메인(시각, 음성, 언어)에서 일관되게 나타난다. 이미지·비디오 분류와 객체 검출에서는 실제 전문가 활성화가 평균 40% 감소했음에도 불구하고 Top‑1 정확도는 기존 MoE와 거의 차이가 없었다. OCR 및 대규모 언어 모델 과제에서는 실제 전문가 사용량이 10% 감소했지만, BLEU·ROUGE 점수는 유지되었다. 이는 AnyExperts가 ‘연산 효율성’과 ‘성능 유지’를 동시에 달성할 수 있음을 입증한다.

하지만 몇 가지 한계도 존재한다. 첫째, 중요도 스코어를 정확히 추정하기 위해 추가적인 사전 학습 혹은 별도 어텐션 모듈이 필요할 수 있다. 이는 전체 파이프라인 복잡성을 증가시킨다. 둘째, 가상 전문가 비율을 고정(20%)하는 것이 모든 작업에 최적일지는 의문이다. 작업 특성에 따라 가변적인 가상 비율을 학습하도록 설계한다면 더욱 효율적인 자원 배분이 가능할 것이다. 셋째, 현재 실험은 주로 대규모 사전 학습된 MoE 모델에 적용했으며, 소규모 모델이나 제한된 하드웨어 환경에서의 적용 가능성은 추가 검증이 필요하다.

전반적으로 AnyExperts는 ‘동적 라우팅 + 예산 제어’라는 새로운 설계 원칙을 제시함으로써 멀티모달 MoE 연구에 중요한 전환점을 제공한다. 향후 연구는 중요도 추정기의 경량화, 가상 전문가 비율의 자동 최적화, 그리고 다양한 하드웨어 가속기와의 통합을 통해 실용성을 더욱 높일 수 있을 것으로 기대된다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...