약한 감독 데이터 활용 엔드투엔드 음성번역 성능 향상
본 논문은 사전 학습된 MT·TTS 모델을 이용해 약한 감독 데이터(음성‑텍스트, 텍스트‑번역)를 인공적인 음성‑번역 쌍으로 변환하고, 이를 대규모 합성 데이터와 결합해 엔드투엔드(ST) 모델을 학습한다. 다중 작업 학습보다 합성 데이터 활용이 더 효과적이며, 완전한 감독 데이터 없이도 높은 품질의 ST 모델을 구축할 수 있음을 실험을 통해 입증한다.
저자: Ye Jia, Melvin Johnson, Wolfgang Macherey
본 논문은 엔드투엔드 음성‑번역(ST) 모델이 직면한 데이터 부족 문제를 해결하기 위해 약한 감독 데이터(음성‑텍스트 쌍과 텍스트‑번역 쌍)를 활용하는 새로운 프레임워크를 제시한다. 기존 연구에서는 다중 작업 학습이나 사전 학습된 컴포넌트를 이용해 약한 감독 데이터를 활용했지만, 이들 방법은 모델이 여러 작업을 동시에 최적화해야 하므로 성능이 제한된다. 저자들은 두 가지 합성 경로를 설계한다. 첫 번째는 대규모 MT 코퍼스(70 M 영‑스페인 문장)를 TTS 모델에 입력해 다양한 화자의 영어 음성을 합성하고, 이를 원본 텍스트와 짝지어 인공적인 음성‑번역 쌍을 만든다. 두 번째는 대규모 ASR 코퍼스(29 M 음성)에서 텍스트를 추출한 뒤, 고성능 MT 서비스(Google Translate)를 이용해 스페인어 번역을 생성함으로써 ‘음성‑텍스트 → 음성‑번역’ 쌍을 만든다. 두 합성 데이터는 각각 TTS 합성 음성, MT 합성 번역이라는 서로 다른 특성을 가지고 있어 상호 보완적이다.
모델 아키텍처는 5‑8 레이어의 양방향 LSTM 인코더와 8‑레이어의 단방향 LSTM 디코더, 8‑헤드 어텐션을 갖는 전형적인 seq2seq 구조이다. ASR 인코더와 MT 디코더를 각각 사전 학습한 뒤, ST 모델에 재사용한다. 핵심 학습 전략은 사전 학습된 인코더를 고정하고, 추가적인 0~4개의 레이어를 쌓아 미세조정하는 방식이다. 실험에서는 3개의 추가 레이어가 가장 좋은 성능을 보였으며, 이는 합성 음성에 대한 과적합을 방지하면서도 충분한 표현력을 제공한다는 것을 의미한다.
데이터 증강으로는 배경 잡음과 리버버레이션을 적용해 실제 환경과 유사하게 만들었다. 평가 데이터는 (1) 읽음 기반 인‑도메인 10.8 K 샘플, (2) 자연 대화 기반 아웃‑도메인 8.9 K 샘플로 구성되며, 두 데이터 모두 영어 음성, 영어 전사, 스페인어 번역을 포함한다. 성능 지표는 ASR에 대해 WER, 번역에 대해 BLEU를 사용한다.
베이스라인으로는 (a) 캐스케이드 ASR‑MT 시스템, (b) 엔드투엔드 ST 모델(프리트레인 및 다중 작업 학습 포함)을 구축했다. 캐스케이드 모델은 인‑도메인 56.9 BLEU, 아웃‑도메인 21.1 BLEU를 기록했으며, 엔드투엔드 모델은 프리트레인·다중 작업을 적용했을 때 57.1 BLEU(인‑도메인)와 21.3 BLEU(아웃‑도메인)로 캐스케이드를 약간 앞섰다.
그 다음 합성 데이터를 활용한 실험에서는 (1) 실제 데이터만 사용한 경우 49.1 BLEU(인‑도메인), 12.1 BLEU(아웃‑도메인), (2) 실제+TTS 합성 데이터로 학습한 경우 59.5 BLEU와 22.7 BLEU, (3) 실제+MT 합성 데이터로 학습한 경우 57.9 BLEU와 26.2 BLEU, (4) 실제+양쪽 합성 데이터를 모두 사용한 경우 59.5 BLEU와 26.7 BLEU를 달성했다. 특히, 합성 데이터만을 사용한 경우에도 아웃‑도메인에서 27 BLEU를 기록, 실제 데이터와 동등하거나 더 나은 성능을 보여준다.
추가 실험에서는 인코더를 완전하게 미세조정한 경우 성능이 급격히 저하되는 것을 확인했으며, 이는 합성 음성의 품질이 실제 음성보다 낮아 인코더가 잡음에 민감해지기 때문이다. 또한, 다중 화자 TTS를 사용했을 때와 단일 화자 TTS를 사용했을 때의 차이를 비교했으며, 다중 화자 모델이 3~4 BLEU 포인트 정도 높은 결과를 보였다.
결론적으로, (1) 약한 감독 데이터를 고품질 MT·TTS 모델을 통해 인공적인 ST 쌍으로 변환하면 다중 작업 학습보다 더 큰 성능 향상을 얻을 수 있다, (2) 사전 학습된 인코더를 고정하고 추가 레이어만 미세조정하면 합성 데이터에 대한 과적합을 방지하면서도 대규모 학습이 가능하다, (3) 다중 화자 TTS를 활용해 스피커 다양성을 확보하는 것이 합성 데이터의 효과를 극대화한다는 점을 입증한다. 이러한 접근은 완전한 감독 데이터가 부족한 저자원 언어쌍이나 새로운 도메인에 빠르게 ST 시스템을 구축하는 데 유용한 로드맵을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기