다국어 F5TTS 언어에 구애받지 않는 음성 클로닝
초록
본 논문은 텍스트 없이도 음성 프롬프트만으로 다국어 제로샷 음성 클로닝을 가능하게 하는 Cross‑Lingual F5‑TTS 프레임워크를 제안한다. 강제 정렬을 이용해 단어 경계를 추출하고, 화자의 말하기 속도를 예측하는 다중 입출력 스피킹 레이트 예측기를 도입해 지속시간을 언어 독립적으로 결정한다. 실험 결과, 기존 F5‑TTS와 동등한 품질을 유지하면서 영어·중국어를 넘어 독일어·프랑스어·힌디어·한국어 등 새로운 언어에서도 높은 인식 정확도와 화자 유사성을 보였다.
상세 분석
Cross‑Lingual F5‑TTS는 기존 흐름‑매칭 기반 TTS 모델이 텍스트 전사에 의존하던 한계를 근본적으로 해소한다. 핵심 아이디어는 두 단계로 나뉜다. 첫 번째는 MMS(Massively Multilingual Speech) 강제 정렬 도구를 활용해 학습용 오디오에서 정확한 단어 경계를 추출하는 전처리 단계이다. 이 과정에서 텍스트는 완전히 배제되고, 오직 오디오와 그 경계 정보만이 모델에 입력된다. 이렇게 하면 언어가 달라 전사 품질이 낮은 경우에도 학습이 가능해진다. 두 번째는 지속시간 예측 문제를 해결하기 위한 스피킹 레이트 예측기이다. 기존 F5‑TTS는 “오디오 프롬프트 길이 ÷ 전사 길이 × 목표 텍스트 길이”라는 단순 비율을 사용했지만, 이는 언어 간 텍스트 길이 비례가 깨질 때 오류가 발생한다. 논문에서는 음성 프롬프트의 멜 스펙트로그램을 입력으로 받아, phoneme‑level, syllable‑level, word‑level 세 가지 입출력 granularity에 대해 각각 별도의 예측 모델을 학습한다. 예측은 이산 클래스 분류 형태로 설계되었으며, Gaussian Cross‑Entropy 손실을 도입해 인접 클래스 간의 연속성을 보존한다. 이렇게 얻어진 화자별 말하기 속도(예: 초당 음소 수)를 목표 텍스트의 언어 단위 수와 나누어 목표 음성의 지속시간을 계산한다.
실험 설계는 크게 세 부분으로 나뉜다. (1) Emilia 데이터셋(영·중) 95 k시간을 이용한 학습, (2) LibriSpeech‑PC와 Seed‑TTS(영·중) 표준 벤치마크를 통한 인트라‑링궐 성능 평가, (3) FLEURS 기반 다국어 교차‑링궐 테스트(독일어, 프랑스어, 힌디어, 한국어)에서의 제로샷 클로닝 성능 검증이다. 평가 지표는 WER, 화자 유사도(SIM‑o), 자동 MOS(UTMOS)와 더불어 스피킹 레이트 예측기의 MAE·MRE를 포함한다. 결과는 다음과 같다. 첫째, phoneme‑level 예측기(M1)는 영어 데이터에서 가장 낮은 MAE·MRE를 기록했으며, syllable‑level 예측기(M2)는 중국어에서 약간 우수했다. 둘째, CL‑F5‑TTS는 기존 F5‑TTS와 비교해 WER와 UTMOS에서 동등하거나 약간 우수했으며, 화자 유사도는 소폭 감소했지만 여전히 높은 수준을 유지했다. 셋째, 교차‑언어 실험에서 M1을 사용한 경우 영어 목표 텍스트에 대해 WER 2.5 % 수준을 유지했으며, M2를 사용한 경우 중국어 목표 텍스트에 대해 WER 2.8 % 수준을 달성했다. 반면, word‑level 예측기(M3)는 과도한 속도 예측으로 인해 인식 오류가 급증했다.
이 논문의 주요 기여는 (1) 텍스트 없이도 흐름‑매칭 기반 TTS를 학습할 수 있는 전처리 파이프라인, (2) 언어 독립적인 지속시간 모델링을 위한 다중 입출력 스피킹 레이트 예측기, (3) 대규모 다국어 데이터와 강제 정렬을 결합해 실제 서비스 수준의 교차‑언어 음성 클로닝을 구현했다는 점이다. 특히, Gaussian Cross‑Entropy 손실을 통한 연속형 라벨링은 이산 분류 문제에서 순서 정보를 효과적으로 활용한 좋은 사례로 평가된다. 향후 연구에서는 더 세밀한 음소‑단위 경계 추출, 비정형 언어(예: 방언) 적용, 그리고 텍스트‑조건 없는 완전 비지도 학습으로 확장할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기