KIT 저자원 음성 번역을 위한 합성 데이터와 모델 정규화 활용
초록
KIT는 IWSLT 2025 저자원 트랙에서 Bemba, 북레반틴 아랍어, 튀니지아랍어 → 영어 번역을 위해 파이프라인(ASR + MT)과 엔드‑투‑엔드(ST) 두 가지 접근법을 모두 구축하였다. 사전학습 모델을 기반으로 MT‑augmented ST와 TTS‑augmented ST라는 두 종류의 합성 데이터를 생성하고, intra‑distillation이라는 정규화 기법을 적용해 ASR, MT, ST 전 단계에서 성능을 일관되게 끌어올렸다. 특히 북레반틴 아랍어는 실제 ST 데이터가 없었음에도 합성 데이터만으로 학습한 모델이 파이프라인보다 약간 높은 BLEU를 기록했으며, Bemba에서는 TTS 합성 음성을 활용해 ASR와 ST 모두에서 개선을 확인했다. 마지막으로 최소 베이즈 위험(MBR) 디코딩을 이용해 파이프라인과 엔드‑투‑엔드 시스템을 결합해 평균 1.5 BLEU 포인트를 추가 상승시켰다.
상세 분석
이 논문은 저자원 언어에 대한 음성 번역 성능을 극대화하기 위해 두 축을 동시에 탐구한다. 첫 번째 축은 데이터 측면에서, 기존 ASR와 MT 코퍼스를 재활용해 합성 ST 데이터를 만드는 MT‑augmented ST와, MT 텍스트에 TTS 모델을 적용해 인공 음성을 생성하는 TTS‑augmented ST이다. 특히 북레반틴 아랍어는 병렬 ST 훈련 데이터가 전혀 없었음에도, ASR → MT 파이프라인에서 얻은 텍스트를 MT 모델로 번역하고 이를 TTS로 음성화한 합성 데이터만으로 훈련한 엔드‑투‑엔드 모델이 파이프라인보다 약간 높은 BLEU(≈0.3 점) 를 달성했다. 이는 합성 데이터의 품질이 충분히 높을 경우, 실제 데이터 부족을 효과적으로 메꿀 수 있음을 보여준다.
두 번째 축은 모델 정규화이다. 기존 연구에서 intra‑distillation(ID)이 저자원 MT에 유용함을 보였지만, 여기서는 ASR, MT, ST 전 단계에 동일한 두 단계 학습(일반 파인튜닝 → ID 파인튜닝)을 적용했다. 실험 결과, ID 적용 후 WER가 평균 1 포인트, BLEU가 0.5~1.0 점 상승했으며, 특히 SeamlessM4T 기반 모델에서 가장 큰 효과를 보였다. 이는 모델이 자체 예측을 교사 신호로 활용해 과적합을 완화하고, 다양한 언어·도메인에 대한 일반화 능력을 강화한다는 점을 시사한다.
프리트레인 모델 선택도 중요한 변수로 다루어진다. SeamlessM4T‑large(v2)는 1,100개 언어에 대한 멀티모달 사전학습을 수행했으며, Bemba와 같은 비포함 언어에서도 강인한 표현력을 보여준다. 반면 NLLB‑1.3B는 아랍어 방언을 사전학습에 포함하고 있어, 북레반틴·튀니지 아랍어 MT에서 비교적 높은 chrF를 기록했다. MMS와 XEUS는 CTC 기반 ASR에 특화돼 있었으며, 언어 모델(LM) 융합을 통해 WER를 4 점 가량 낮추는 효과를 확인했다.
합성 데이터와 정규화 기법을 개별적으로 적용했을 때도 각각 성능 향상이 있었지만, 두 기법을 동시에 적용한 경우 시너지 효과가 나타났다. 최종 시스템은 파이프라인과 엔드‑투‑엔드 모델 각각 50개의 후보 번역을 MBR 디코딩에 입력해 BLEU를 유틸리티 함수로 최적화했으며, 이 과정에서 평균 1.5 BLEU 포인트의 추가 향상이 관측되었다.
전체적으로 이 연구는 (1) 합성 데이터 생성 파이프라인을 언어별 특성에 맞게 설계하면 실제 데이터가 부족한 저자원 상황에서도 경쟁력 있는 ST 모델을 구축할 수 있음을, (2) intra‑distillation 기반 정규화가 사전학습 모델의 잠재력을 끌어내는 일반적인 방법임을, (3) 파이프라인과 엔드‑투‑엔드 시스템을 MBR 방식으로 결합하면 서로의 장점을 보완해 최종 번역 품질을 극대화할 수 있음을 입증한다. 이러한 접근은 향후 저자원 음성 번역 연구와 실용 시스템 구축에 중요한 지침이 될 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기