다중전문가 프로젝트로 안정화된 다국어 음성인식
초록
본 논문은 LLM 기반 자동음성인식(ASR)에서 다국어 환경에 맞는 경량화된 프로젝터 설계의 한계를 지적하고, 모든 전문가에게 밀집된 그래디언트를 전달해 전문가 붕괴를 방지하는 SMEAR‑MoE 방식을 제안한다. 힌디어, 마라티, 타밀, 텔루구 4개 인도어에 대해 실험한 결과, 단일 프로젝터 대비 최대 7.6% 상대 WER 감소를 달성하면서도 실행 효율은 기존 단일 프로젝터와 거의 동일했다. 라우팅 분석을 통해 언어 계통에 따라 전문가가 의미 있게 특화되는 현상을 확인하였다.
상세 분석
SMEAR‑MoE는 기존 LLM‑ASR 파이프라인에서 음성 인코더와 대형 언어 모델(LLM) 사이를 연결하는 ‘프로젝터’가 다국어 상황에서 병목이 된다는 점을 정확히 짚어낸다. 단일 프로젝터는 서로 다른 언어의 음향‑텍스트 매핑을 모두 포괄해야 하므로 표현 충돌이 발생하고, 언어별 전용 프로젝터를 도입하면 공유가 제한돼 데이터가 부족한 언어에서 과적합 위험이 커진다. 이를 해결하기 위해 저자는 세 단계의 설계를 비교한다. 첫 번째는 기존와 동일한 단일 Conv‑MLP 프로젝터이며, 두 번째는 언어별 혹은 계통별로 여러 정적 프로젝터를 평균하거나 집합하는 방식이다. 정적 집합은 성능이 향상되지만 계산 비용이 크게 늘어나고, 라우팅이 고정돼 동적 적응이 어렵다. 세 번째가 핵심인 동적 MoE 설계이다. 여기서는 공유 다운샘플러 뒤에 여러 경량 MLP 전문가를 두고, 토큰‑레벨 혹은 발화‑레벨 Top‑k 라우팅을 적용한다. 그러나 전통적인 Sparse MoE는 선택된 전문가에만 그래디언트가 흐르기 때문에 ‘전문가 붕괴’가 빈번히 일어나며, 특히 데이터가 제한된 중저자원 언어에서 학습이 불안정해진다. SMEAR‑MoE는 이러한 문제를 ‘Soft Merging’ 기법으로 해결한다. 라우팅 가중치(평균 게이트) (\bar g) 를 이용해 모든 전문가의 파라미터를 가중 평균한 가상 전문가를 만든 뒤, 이 가상 전문가에 전체 입력을 한 번에 적용한다. 결과적으로 각 전문가가 (\bar g_m) 비율만큼 그래디언트를 받게 되므로, 전문가가 완전히 무시되는 상황이 사라진다. 이 방식은 학습 안정성을 크게 높이며, 동시에 라우팅 가중치를 통해 언어 간 공유 정도를 조절한다. 실험에서는 Whisper‑large‑v3 인코더와 Gemma‑2‑9B LLM을 고정하고, 프로젝터만 52M 파라미터로 학습했다. 250시간씩 수집한 힌디어·마라티·타밀·텔루구 데이터를 사용해 4개 베치마크(Fleurs, IndicTTS, Kathbath, MUCS)에서 WER와 CER을 측정했다. SMEAR‑MoE는 평균 WER 8.2%를 기록, 단일 프로젝터(11.5%)보다 28% 이상 개선했으며, 정적 Dense Ensemble(9.3%)보다도 우수했다. 라우팅 히트맵을 보면 힌디어와 마라티가 동일 전문가(Expert 4)를 주로 사용하고, 타밀은 별도 전문가(Expert 2)를, 텔루구는 여러 전문가에 고르게 분산되는 패턴을 보인다. 이는 언어 계통·스크립트·음운적 유사성이 라우팅에 반영된 것으로 해석된다. 또한 실시간 인자(RTF) 측면에서 SMEAR‑MoE는 0.198로 단일 프로젝터(0.196)와 거의 동등한 속도를 유지하면서도 성능을 크게 끌어올렸다. 따라서 전문가 붕괴를 방지하면서도 동적 특화와 공유를 동시에 달성한 SMEAR‑MoE는 대규모 다국어 LLM‑ASR 시스템에 실용적인 해결책이 된다.
댓글 및 학술 토론
Loading comments...
의견 남기기