언어 가족 기반 연결기로 다국어 LLM ASR 효율 극대화
초록
본 논문은 LLM 기반 자동음성인식(ASR)에서 언어별로 별도 커넥터를 학습하는 대신, 언어 가족 단위로 하나의 커넥터를 공유하는 전략을 제안한다. 두 종류의 멀티링꾼 LLM( Gemma‑2‑2b, Salamandra‑2b)과 두 실제 음성 데이터셋(FLEURS, CommonVoice)에서 실험한 결과, 가족 기반 커넥터는 파라미터 수를 크게 줄이면서도 인식 오류율(WER)을 낮추고 도메인 간 일반화 능력을 향상시켰다.
상세 분석
이 연구는 최근 급부상하고 있는 Speech‑LLM 프레임워크의 효율성 문제에 주목한다. 기존 방식은 각 언어마다 별도의 라이트웨이트 커넥터를 학습해 음성 인코더와 LLM 디코더를 연결했지만, 이는 언어 수가 늘어날수록 파라미터와 학습 비용이 급증한다는 한계가 있다. 논문은 언어학적 계통(언어 가족)이라는 자연스러운 구조적 유사성을 활용해, 동일 가족에 속한 여러 언어가 하나의 커넥터를 공유하도록 설계하였다.
기술적으로는 고정된 Whisper‑large‑v3 음성 인코더와 두 개의 사전 학습된 LLM 디코더(Gemma‑2‑2b, Salamandra‑2b)를 사용하고, 커넥터는 두 개의 선형 레이어와 GELU 활성화로 구성된 간단한 어댑터이다. 학습 단계에서는 오직 커넥터만 업데이트하며, 10 epoch 동안 AdamW(1e‑4, weight‑decay 1e‑6)로 최적화한다. 평가 지표는 표준 WER이며, 실험은 7개 언어 가족(아프리카-아시아, 오스트로네시아, 드라비다, 인도‑유럽, 니제르‑콩고, 투르크, 우랄) 내 약 40개 언어에 대해 수행되었다.
실험 결과는 두 차원에서 의미 있는 개선을 보여준다. 첫째, 동일 가족 내 여러 언어에 대해 학습된 FAM‑CONN은 LANG‑CONN에 비해 평균 WER 감소폭이 5~70%에 달했으며, 특히 독일어계, 로망스계, 슬라브계 등 형태론·음운론적 유사성이 높은 가족에서 큰 이득을 보였다. 둘째, 도메인 전이 실험(FLEURS→CommonVoice, 그 반대)에서도 FAM‑CONN이 전반적으로 더 낮은 오류율을 기록했는데, 이는 가족 수준의 표현이 음성 신호의 공통된 프로소디와 음소 패턴을 포착해 새로운 도메인에서도 강인한 일반화 능력을 제공하기 때문이다.
하지만 모든 가족에서 일관된 개선이 나타난 것은 아니다. 아프리카-아시아와 드라비다처럼 내부 변이가 큰 가족에서는 오히려 LANG‑CONN이 우수한 경우가 있었다. 이는 계통학적 분류가 반드시 음성학적·음운학적 유사성을 보장하지 않으며, 세부적인 서브패밀리 혹은 언어‑특화 어댑터가 필요할 수 있음을 시사한다. 또한, Salamandra‑2b는 언어별 커넥터에서 반복 및 언어 드리프트 현상이 더 두드러졌으며, 이때 가족 기반 커넥터가 이러한 불안정을 완화하는 효과를 보였다.
파라미터 효율성 측면에서도, FAM‑CONN은 동일 가족 내 언어 수에 비례해 파라미터를 공유함으로써 전체 커넥터 파라미터를 약 30~60% 절감한다. 논문은 이를 검증하기 위해 모든 언어를 하나의 UNICONN에 통합한 실험도 수행했으며, UNICONN이 가장 많은 데이터를 사용했음에도 불구하고 FAM‑CONN보다 높은 WER을 기록함으로써, 단순 데이터 양이 아닌 언어 간 구조적 유사성이 핵심임을 입증했다.
결론적으로, 이 연구는 언어 가족이라는 언어학적 메타 정보를 활용한 커넥터 공유가 멀티링꾼 LLM‑ASR 시스템의 확장성을 크게 향상시킬 수 있음을 실증한다. 향후 연구는 서브패밀리 수준의 계층적 공유, 언어‑특화 어댑터와의 혼합 전략, 그리고 비라틴 문자·음절 기반 언어에 대한 추가 평가 등을 통해 더욱 정교한 다국어 ASR 파이프라인을 구축할 여지를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기