직접 음성에서 음성 번역을 위한 멀티모달 언어 모델 SLM S2ST

직접 음성에서 음성 번역을 위한 멀티모달 언어 모델 SLM S2ST
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SLM‑S2ST는 오픈소스 Phi4‑MM을 기반으로 텍스트와 오디오 토큰을 동시에 생성하는 오디오 트랜스포머 헤드를 추가한 멀티모달 언어 모델이다. 음성 입력을 이해하고, 텍스트 번역을 만든 뒤, 지연된 오디오 토큰을 예측해 스트리밍 보코더로 파형을 합성한다. CVSS‑C 데이터만으로도 기존 베이스라인을 크게 앞서며, 학습 데이터와 모델 규모를 7 B 파라미터·11 000시간으로 확장하면 현재 최고 성능 모델과 동등한 결과를 얻는다.

상세 분석

본 논문은 기존의 “speech‑aware” 대형 언어 모델이 텍스트 생성에만 특화된 한계를 극복하고, 직접적인 음성‑음성 번역(S2ST) 기능을 부여하는 방법론을 제시한다. 핵심 아이디어는 Phi4‑MM의 공유 언어 모델(Shared Layer) 위에 두 개의 포스트‑LM을 두어, 텍스트 포스트‑LM은 기존대로 텍스트 토큰을, 오디오 포스트‑LM은 동일한 히든 상태를 이용해 오디오 토큰을 예측하도록 설계한 것이다. 오디오 토큰은 텍스트 토큰보다 일정한 지연(논문에서는 3 토큰) 후에 생성되는데, 이는 아직 생성되지 않은 텍스트 토큰을 미래 컨텍스트로 활용해 오디오 토큰의 품질을 향상시키는 “look‑ahead” 메커니즘이다.

음성 입력 처리 파이프라인은 크게 세 단계로 나뉜다. 첫 번째는 Phi4‑MM에서 그대로 차용한 3‑layer Conv + 24‑layer Conformer 기반의 음성 인코더와 2‑layer MLP 어댑터이며, 이들은 사전 학습된 파라미터를 고정(freeze)한다. 두 번째는 공유 LM을 통과한 후 텍스트와 오디오 포스트‑LM이 각각 토큰을 생성한다. 오디오 포스트‑LM은 논문에서 제시한 대로 6개의 Transformer 디코더 레이어를 사용하고, LoRA(rank 320)를 적용해 기존 LLM 디코더 레이어만 효율적으로 미세조정한다. 세 번째는 생성된 오디오 토큰을 FSQ 기반의 음성 토크나이저(사전 학습된 CosyVoice 2)로 디코딩해 10 토큰 단위 스트리밍 청크로 묶고, 흐름 매칭 모델과 HiFi‑GAN 보코더를 순차적으로 통과시켜 실시간 멜‑스펙트로그램 → 파형 변환을 수행한다.

학습 데이터는 CVSS‑C(≈ 940 h)와 CVSS‑M(≈ 940 h) 그리고 자체 수집한 10 000 h 규모의 음성‑번역 데이터(Φ4‑MM 사전 학습 데이터)로 구성했으며, 베이스라인 대비 2배 이상 규모 확장이 가능함을 보였다. 실험에서는 CoVoST2, FLEURS, CVSS 테스트셋을 활용해 텍스트 번역 BLEU와 ASR‑BLEU(음성 → 텍스트 → BLEU) 두 지표를 모두 측정했다. 결과적으로 4 B 모델은 DE‑EN, ES‑EN, FR‑EN 등 7개 언어에서 ASR‑BLEU 35.9~39.7을 기록했으며, 이는 기존 S2UT(20.9)·Translatotron 2(16.9) 등을 크게 앞선 수치다. 7 B 모델로 스케일업했을 때는 SeamlessM4T v2 Large와 거의 동등한 성능을 보이며, 대규모 사전 학습 없이도 S2ST에 필요한 음성‑음성 정렬(WER)까지 만족시켰다.

핵심 인사이트는 (1) 강력한 멀티모달 LLM을 그대로 활용하면서 최소한의 추가 모듈(오디오 포스트‑LM, LoRA)만 도입하면 S2ST가 가능하다는 점, (2) 텍스트‑오디오 토큰의 동시 디코딩과 지연 메커니즘이 음성 품질을 크게 향상시킨다는 점, (3) 스트리밍 방식의 토큰‑투‑멜·보코더 파이프라인이 실시간 응용에 적합하다는 점이다. 한편, 음성 인코더와 토크나이저를 고정한 채 학습했기 때문에 도메인‑특화 음성 특성이나 억양을 반영하는 데 한계가 있을 수 있다. 또한, 현재는 7 B 파라미터와 11 000 h 데이터가 최상위 성능을 내지만, 더 작은 모델에 대한 효율성 연구와 다양한 언어·방언에 대한 일반화 검증이 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기