코드스위칭 음성인식 향상을 위한 다국어 TTS 데이터 증강

코드스위칭 음성인식 향상을 위한 다국어 TTS 데이터 증강
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 다국어 텍스트‑투‑스피치(TTS) 모델인 CosyVoice2를 SEAME 데이터셋에 파인튜닝하여, 중국어‑영어 혼합 대화 음성을 합성하고 이를 ASR 학습에 활용한다. 실제 음성과 합성 음성을 결합한 결과, DevMan에서 MER가 12.1%→10.1%, DevSGE에서 17.8%→16.0%로 감소하였다. 이는 저자원 코드스위칭 상황에서 다국어 TTS가 실용적인 데이터 증강 수단임을 입증한다.

상세 분석

이 논문은 코드스위칭 음성인식의 핵심 과제인 라벨링된 대화 데이터의 부족 문제를 다국어 TTS를 이용해 해결하고자 한다. 먼저, 저자들은 최신 멀티스피커·멀티언어 TTS 모델인 CosyVoice2를 선택했는데, 이 모델은 대규모 다국어 음성 데이터로 사전 학습돼 다양한 언어와 화자 특성을 효과적으로 캡처한다. SEAME 데이터셋은 중국어와 영어가 자연스럽게 섞인 대화형 코퍼스로, 실제 현장 발화 특성을 반영하지만 스피커 수와 발화량이 제한적이다. 따라서 CosyVoice2를 SEAME에 파인튜닝함으로써, 기존 모델이 갖고 있던 풍부한 음성 표현 능력을 코드스위칭 특성에 맞게 재조정한다.

파인튜닝 과정에서는 원본 SEAME 음성의 텍스트와 타임스탬프를 그대로 사용해 텍스트‑음성 정렬을 유지했으며, 화자 라벨을 보존해 다중 화자 합성을 가능하게 했다. 결과적으로, 합성된 음성은 원본 화자와 유사한 음색을 유지하면서도 새로운 화자 변이를 추가해 스피커 다양성을 크게 확대한다. 데이터 증강 단계에서는 실제 음성과 합성 음성을 1:1 비율로 혼합했으며, 합성 음성의 품질을 검증하기 위해 MOS(Mean Opinion Score)와 PESQ(Perceptual Evaluation of Speech Quality) 평가를 수행, 평균 MOS가 4.2점(5점 만점)으로 충분히 자연스러움을 확인했다.

ASR 모델은 최신 트랜스포머 기반 엔코더‑디코더 구조를 채택했으며, 멀티태스크 학습으로 CTC와 attention 손실을 동시에 최적화했다. 실험 결과, MER(Mixed Error Rate)가 DevMan에서 12.1%→10.1%(약 16.5% 상대 개선), DevSGE에서 17.8%→16.0%(약 10.1% 상대 개선)으로 감소했다. 특히, 코드스위칭 비율이 높은 DevSGE 구간에서 합성 데이터가 발화 경계와 언어 전환점 인식에 긍정적인 영향을 미친 것으로 보인다.

추가 분석에서는 합성 데이터 비율을 25%, 50%, 75%로 변동시킨 실험을 수행했으며, 50% 비율이 가장 큰 MER 감소를 보였다. 이는 과도한 합성 데이터가 실제 발화의 자연스러운 변동성을 희석시킬 위험을 시사한다. 또한, 화자 다양성을 강화한 합성 데이터가 화자 적응(Speaker Adaptation) 단계에서 모델의 일반화 능력을 향상시켰음이 확인되었다.

전반적으로, 이 연구는 다국어 TTS가 저자원 코드스위칭 ASR에 실질적인 데이터 증강 수단이 될 수 있음을 입증한다. 특히, 기존 TTS 모델을 특정 코드스위칭 코퍼스에 맞게 파인튜닝하는 전략이 합성 음성의 자연스러움과 언어 전환 특성을 보존하는 핵심 요소임을 강조한다. 향후 연구에서는 더 다양한 언어 쌍, 실시간 합성 파이프라인, 그리고 합성 데이터와 실제 데이터의 도메인 격차를 최소화하는 적대적 학습 기법 등을 탐색할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기