MoE 모델을 위한 전문가 인식 양자화 혁신

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

EAQuant은 전문가별 활성화 특성을 고려한 세 가지 핵심 기법(스무딩 집계, 라우팅 일관성 정렬, 캘리브레이션 데이터 균형)을 통해 초저비트(예: W4A4, W3A3) 양자화에서도 MoE 모델의 정확도와 추론 안정성을 크게 향상시킨 포스트‑트레이닝 양자화 프레임워크이다.

상세 분석

본 논문은 Mixture‑of‑Experts(MoE) 구조가 가진 고유한 양자화 난관을 체계적으로 분석하고, 이를 해결하기 위한 전문가‑인식(Expert‑Aware) 접근법을 제시한다. 첫 번째 문제는 전문가별 활성화 텐서에서 발생하는 극단값(아웃라이어)이다. 기존 SmoothQuant과 같은 채널‑단위 스무딩은 각 전문가마다 별도의 스케일 벡터를 생성해야 하며, 이는 라우터 이후에 동적으로 적용돼 연산 오버헤드를 초래한다. EAQuant은 모든 전문가와 라우터 가중치에 대해 최대값을 취해 하나의 통합 스무딩 벡터 s를 만든다. 이 벡터는 RMSNorm에 병합될 수 있어 추가 연산 비용이 전혀 없으며, 어떤 전문가가 선택되더라도 s ≥ s_i를 만족해 활성화 스케일링이 안정적으로 이루어진다. 두 번째 문제는 라우터 로그잇의 양자화 민감도이다. 비트폭이 낮아지면 작은 수치 오차가 top‑k 선택을 뒤바꾸어 토큰이 잘못된 전문가에 할당되고, 이는 성능 급락으로 이어진다. 논문은 라우터 로그잇 재구성을 위한 MSE 손실과, 전체‑정밀 라우팅 확률 분포와의 KL‑다이버전스를 동시에 최소화하는 이중 목표 캘리브레이션을 도입한다. 이를 통해 양자화 전후 라우팅 확률이 거의 일치하도록 강제함으로써 토큰 재라우팅을 방지한다. 세 번째 문제는 캘리브레이션 단계에서 발생하는 데이터 불균형이다. MoE는 파워‑법칙 형태의 전문가 활용도를 보이며, 일부 ‘핵심’ 전문가만 다량의 샘플을 받는다. 희소하게 사용되는 전문가들은 충분한 통계량을 확보하지 못해 스케일 파라미터가 과대‑또는 과소‑추정된다. EAQuant은 희소 전문가에 대해 데이터 샘플링 비율을 인위적으로 높여, 각 전문가가 기대되는 토큰 수에 도달하도록 보정한다. 이 과정은 기존 MoEQuant의 자체‑샘플링 방식과 달리 외부 데이터 증강을 활용해 공정성을 유지한다. 실험 결과는 세 가지 대표적인 MoE 모델(OLMoE‑7B, DeepSeek‑MoE‑16B, Mixtral‑8x7B)과 다양한 초저비트 설정(W4A4, W3A4, W3A3, W2A4)에서 EAQuant이 기존 최첨단 PTQ 방법(DuQuant 등)보다 평균 1.15%~~13.81% 높은 정확도를 달성함을 보여준다. 특히 추론 난이도가 높은 ARC‑E와 같은 reasoning 벤치마크에서 2~~3%p 이상의 개선을 기록했으며, 퍼플렉시티 역시 풀‑프리시전 수준에 근접한다. 전체적으로 EAQuant은 전문가‑인식 스무딩, 라우팅 일관성 정렬, 캘리브레이션 데이터 균형이라는 세 축을 통해 MoE 양자화의 핵심 병목을 동시에 해소함으로써, 초저비트 환경에서도 실용적인 배포가 가능하도록 만든다.

MoE 모델을 위한 전문가 인식 양자화 혁신

초록

상세 분석

댓글 및 학술 토론

의견 남기기