다중언어 LLM 기반 ASR, 간단한 어댑터 혼합이 단일 구조를 능가한다

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다중언어 자동음성인식(ASR)에서 대형 언어모델(LLM)과의 정렬을 담당하는 프로젝터를 MoE 기반의 MOSA(Mixture of Simple Adapters)로 설계하였다. 여러 개의 경량 어댑터가 언어공통 및 언어특화 정보를 각각 학습하도록 하여 파라미터 간섭을 완화하고 고자원 언어에서 저자원 언어로의 양성 전이를 촉진한다. 실험 결과 MOSA‑Base는 기존 Ideal‑LLM Base 대비 평균 WER을 15.4% 감소시키고, 파라미터는 60%만 사용한다는 점에서 효율성과 성능 모두에서 우수함을 입증한다.

상세 분석

MOSA는 기존의 단일 프로젝터가 다국어 음성 표현을 LLM 입력 공간에 일관되게 매핑하기 어려운 문제를 MoE(Mixture‑of‑Experts) 구조로 해결한다. 기본 설계는 Whisper‑large‑v3 인코더와 Phi‑3‑mini‑4k‑instruct LLM을 고정하고, 중간에 두 개의 선형 레이어와 ReLU 활성화만을 갖는 경량 어댑터들을 N개 배치한다. 라우터는 인코더 출력 hₐ 를 시간축 풀링한 뒤 Softmax를 통해 각 어댑터에 할당될 가중치 w를 계산한다. 이렇게 얻어진 가중치는 어댑터별 변환 h_adaptᵢ와 가중합을 통해 최종 정렬된 표현 h_adapt 를 만든다. 중요한 점은 어댑터가 단순히 2‑layer MLP 구조이지만, 서로 다른 어댑터가 언어공통 특성(음소, 억양 등)과 언어특화 특성(음운 규칙, 어휘)에 특화될 수 있다는 점이다. 라우터가 입력마다 동적으로 가중치를 조정하므로, 고자원 언어(예: 영어)에서 학습된 일반화된 특성은 저자원 언어(예: 폴란드어)에도 부분적으로 전이된다.

실험은 MLS(Multilingual LibriSpeech) 8개 언어(EN, DE, NL, FR, ES, IT, PT, PL)에서 수행되었으며, 데이터 불균형이 심한 상황에서도 MOSA‑Base는 평균 WER 7.66%를 기록, Ideal‑LLM Base(9.05%)보다 15.4% 상대 개선을 보였다. 파라미터 측면에서는 MOSA‑Base가 Ideal‑LLM Base의 60%만 사용하면서도 동일하거나 더 나은 성능을 달성했다. 어댑터 수를 2~5개로 변동시킨 Ablation 실험에서는 4개 어댑터가 최적 성능을 제공했으며, 어댑터가 하나만 있을 경우 라우터 없이 단일 변환만 수행하므로 다국어 간 파라미터 간섭이 크게 발생해 저자원 언어에서 성능이 급격히 저하된다. 또한 t‑SNE 시각화 결과는 MOSA가 언어별 임베딩을 명확히 구분하면서도 일부 공통 클러스터를 형성해 언어공통 특성을 유지함을 보여준다.

이러한 설계는 복잡한 트랜스포머 기반 어댑터 대신 경량 어댑터와 라우터만으로도 충분한 표현력을 확보할 수 있음을 증명한다. 특히 파라미터 효율성, 데이터 불균형에 대한 강인성, 그리고 고자원‑저자원 언어 간 양성 전이 효과는 실제 서비스 환경에서 다국어 ASR 시스템을 경량화하고 비용을 절감하는 데 큰 의미를 가진다. 향후 연구에서는 어댑터 내부에 언어별 프리트레인된 프롬프트를 삽입하거나, 라우터를 토큰‑레벨로 세분화해 더 미세한 전문가 선택을 구현하는 방안이 고려될 수 있다.

다중언어 LLM 기반 ASR, 간단한 어댑터 혼합이 단일 구조를 능가한다

초록

상세 분석

댓글 및 학술 토론

의견 남기기