향상된 오디오 프롬프트를 활용한 제로샷 텍스트투스피치
초록
본 논문은 야생 환경에서 수집된 잡음이 섞인 음성 데이터를 대상으로, 비자동회귀 모델인 StyleTTS2와 F5‑TTS를 활용한 제로샷 TTS 시스템을 제안한다. 음성 향상을 위해 Sidon 모델 기반 다단계 파이프라인을 적용했으며, 향상된 프롬프트가 음질(UTMOS, DNSMOS)과 인식성(WER)을 크게 개선함을 실험적으로 입증한다. 또한 프롬프트 길이와 품질이 화자 유사도와 합성 품질에 미치는 영향을 정량적으로 분석한다.
상세 분석
본 연구는 두 가지 핵심 문제에 초점을 맞춘다. 첫째, 야생 데이터(TITW) 특유의 잡음과 불규칙한 억양·속도 변동으로 인한 자동 전사 오류와 지속 시간 모델링 난이도를 어떻게 완화할 것인가이다. 이를 위해 저자들은 (1) Sidon 기반 다단계 음성 향상 파이프라인을 도입해 기존 Demucs 대비 높은 MOS와 고주파 복원을 달성했으며, (2) 비자동회귀 구조인 F5‑TTS와 StyleTTS2를 선택해 유연한 지속 시간 예측과 스타일 디퓨전 메커니즘을 활용했다.
F5‑TTS는 사전학습된 v1 Base 체크포인트를 75 k 스텝 동안 미세조정했으며, 학습률 1e‑5와 5 k 워밍업을 적용했다. 배치 크기는 76 800 오디오 프레임으로 설정해 메모리 효율성을 확보했다. 토크나이저는 사전학습 모델과 동일한 vocab을 유지해 텍스트 표현 공간의 일관성을 보장했다. 반면 StyleTTS2는 LibriTTS 사전학습 모델을 12 k 스텝(5 epoch) 동안 미세조정했으며, 1e‑4 학습률, 배치 16, 최대 시퀀스 길이 800을 사용했다. 두 번째 epoch부터는 디퓨전 단계와 공동 학습을 병행해 스타일 변이성을 강화했다.
프롬프트 길이 실험에서는 ‘long’(≈7.7 s)과 ‘short’(≈5.5 s) 두 조건을 비교했다. 결과는 두 모델 모두 프롬프트가 짧을수록 화자 유사도(SECS)가 감소하고, StyleTTS2는 특히 WER이 0.21에서 0.49로 급격히 악화되는 것을 보여준다. 이는 StyleTTS2가 화자 정보를 음향 인코더에 직접 입력하는 구조적 특성 때문이며, F5‑TTS는 프롬프트를 마스크된 영역을 채우는 조건부 신호로 활용해 텍스트와의 정합성은 유지하지만 화자 정체성 보존에 한계가 있음을 시사한다.
음성 향상 효과를 검증한 표 2에서는 Sidon으로 전처리한 ‘enhanced’ 프롬프트가 UTMOS와 DNSMOS를 각각 0.30.4 포인트 상승시키는 반면, SECS는 약 0.070.12 감소한다. 특히 F5‑TTS는 KSUT(알려지지 않은 텍스트, 알려진 화자) 조건에서 UTMOS 4.02, DNSMOS 3.47을 기록해 최고 성능을 달성했다. 이는 향상된 프롬프트가 음성 신호의 잡음을 제거해 인식성(WER)과 음질을 크게 개선하지만, 고주파 성분 보존 과정에서 화자 고유의 스펙트럼 특성이 일부 손실될 수 있음을 의미한다.
스펙트로그램 분석(Fig.1)에서는 Sidon 처리 후 고주파(>8 kHz) 에너지 복원이 뚜렷해졌으며, F5‑TTS는 특히 대역폭 확장이 두드러졌다. StyleTTS2는 원래부터 고주파를 어느 정도 생성했지만, 향상 후 전 구간에 걸쳐 일관된 고주파 에너지가 나타나 전반적인 스펙트럼 풍부함이 증가했다.
전체적으로 본 논문은 (1) 대규모 사전학습 모델의 전이학습이 야생 데이터에 대한 제로샷 TTS 성능을 크게 끌어올린다, (2) 프롬프트 길이와 품질이 화자 유사도와 음성 품질에 직접적인 영향을 미친다, (3) Sidon 기반 향상이 기존 Demucs 대비 잡음 제거와 고주파 복원에서 우수함을 입증한다는 세 가지 주요 인사이트를 제공한다. 향후 연구에서는 화자 정체성 보존을 위한 적응형 향상 전략이나, 프롬프트 길이와 품질을 동적으로 조절하는 메타‑학습 기법을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기