멀티언어 대화형 ASR에서 SpeechLLM과 EndtoEnd 아키텍처의 성능 격차 해소

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 INTERSPEECH 2025 MLC‑SLM 챌린지를 대상으로, Whisper와 mHuBERT를 병렬로 활용한 Speech‑LLM 구조와 Whisper 단일 엔코더 기반 End‑to‑End 모델을 동일 데이터(1 500시간)로 비교한다. LoRA와 전면 파인튜닝을 통한 Whisper 최적화, 교차‑어텐션 기반 다중 인코더 융합 기법, 그리고 선형·Q‑Former 두 종류의 프로젝터를 실험한다. 결과적으로 제안된 Speech‑LLM 시스템이 CER/WER 10.69 %를 기록해 상위 트랙 1 시스템과 동등한 수준에 도달했지만, 완전 파인튜닝된 Whisper E2E 모델보다 약간 뒤처진다는 결론을 도출한다.

상세 분석

이 연구는 두 가지 근본적인 질문에 답하고자 한다. 첫째, 대규모 사전학습된 Whisper 모델을 LoRA와 전면 파인튜닝 방식으로 미세조정했을 때, 동일한 1 500시간 멀티언어 대화 데이터에서 어떤 성능 차이가 나타나는가? 둘째, Whisper와 mHuBERT라는 서로 다른 특성을 가진 두 음성 인코더를 어떻게 효과적으로 결합해 LLM에 전달할 수 있는가?

Whisper‑Large‑v3를 기준으로, LoRA(랭크 32, α 64) 적용 시 파라미터 효율성을 유지하면서 Dev·Eval 셋에서 WER 11.40 %→10.71 %로 크게 개선되었다. 전면 파인튜닝은 추가적인 0.3 % 정도의 이득을 제공했지만, OOD(CV‑Test)에서는 오히려 성능이 저하되어(13.11 %→10.07 % 대비 13.11 %→13.11 %) 도메인 일반화에 한계가 있음을 보여준다. 이는 Whisper가 이미 방대한 데이터로 사전학습됐기 때문에, 파라미터 전체를 업데이트하면 과적합 위험이 커진다는 점을 시사한다.

다음으로 제안된 다중 인코더 융합 방식을 살펴보면, 총 다섯 가지 교차‑어텐션 기반 메커니즘이 구현되었다. 가장 기본적인 Direct Feature Concatenation(DFC)은 단순히 두 인코더 출력을 이어 붙이는 방식으로, 구현이 쉬우나 상호 보완성을 충분히 활용하지 못한다. Res‑Uni‑CAF는 Whisper를 쿼리로, mHuBERT를 키·밸류로 사용해 Whisper가 mHuBERT 정보를 선택적으로 흡수하도록 설계했으며, Residual 연결을 통해 원본 정보를 보존한다. Res‑Bi‑CAF는 양방향 어텐션을 도입해 두 인코더가 서로의 정보를 동시에 보강한다. 여기서 Res‑Gated‑Bi‑CAF는 시그모이드 게이트를 추가해 각 어텐션 흐름의 기여도를 학습적으로 조절한다. 마지막으로 Res‑Gated‑Bi‑CAF©DFC는 위의 게이트 기반 양방향 어텐션에 DFC를 병합해 원시 특징과 정제된 특징을 동시에 제공한다.

실험 결과는 흥미롭다. Stage 1(프로젝터만 학습)에서는 복잡한 게이트 기반 모델이 DFC보다 약 0.20.3 % 낮은 WER을 달성했으며, 특히 Res‑Gated‑Bi‑CAF가 Dev 셋에서 10.77 %까지 끌어올렸다. 그러나 Stage 2(LLM LoRA와 프로젝터 공동 학습)에서는 이러한 차이가 크게 축소돼, 대부분의 융합 방식이 10.6910.90 % 수준으로 수렴했다. 이는 인코더가 이미 충분히 도메인에 맞게 파인튜닝된 뒤라, LLM과 프로젝터만 조정해도 최적에 근접한다는 의미다.

프로젝터 설계에서도 중요한 통찰을 얻었다. 선형 프로젝터는 1‑D 컨볼루션과 MLP로 구성돼 간단하면서도 모든 테스트 셋에서 Q‑Former 기반 윈-레벨 프로젝터보다 낮은 오류율을 보였다(예: Dev 셋 11.91 % vs 12.52 %). 이는 복잡한 쿼리‑기반 요약보다, 고차원 음성 특징을 직접 선형 변환해 LLM 임베딩 공간에 매핑하는 것이 멀티언어 대화 상황에서 더 견고함을 나타낸다.

전체적으로, Whisper를 LoRA 방식으로 파인튜닝하고, mHuBERT와 교차‑어텐션(특히 게이트 기반 양방향)으로 융합한 뒤, 선형 프로젝터를 통해 LLM에 연결하는 파이프라인이 현재 가장 효율적인 Speech‑LLM 설계임을 확인했다. 그러나 여전히 전면 파인튜닝된 Whisper E2E 모델(10.07 % WER)보다 약 0.6 % 정도 뒤처지는 점은, LLM이 음성-텍스트 정렬 과정에서 발생하는 정보 손실 혹은 LLM 자체의 언어 모델링 한계가 남아 있음을 시사한다. 향후 연구는 (1) 어텐션 기반 융합의 깊이와 헤드 수를 확대해 더 풍부한 상호작용을 탐색, (2) LLM 내부에 음성‑텍스트 정렬 전용 어댑터를 삽입해 멀티모달 정합성을 강화, (3) 대규모 외부 데이터 없이도 일반화를 높이는 도메인‑불변 정규화 기법을 도입하는 방향으로 진행될 수 있다.

멀티언어 대화형 ASR에서 SpeechLLM과 EndtoEnd 아키텍처의 성능 격차 해소

초록

상세 분석

댓글 및 학술 토론

의견 남기기