국회 연설 기반 핀란드와 스웨덴 TTS 데이터셋 NordParlTTS
초록
Nord-Parl-TTS는 핀란드와 스웨덴 의회 녹음을 활용해 각각 900시간·5090시간 규모의 고품질 텍스트‑투‑스피치(TTS) 데이터를 공개한다. 기존 스튜디오 기반 소규모 데이터와 달리, 파이프라인을 개선해 잡음 제거·화자 분리·자동 전사·품질 검증을 수행했으며, 평가용 프롬프트‑타깃 세트도 제공한다. 두 개의 최신 디퓨전 기반 TTS 모델을 학습·평가해 데이터의 실용성을 입증하였다.
상세 분석
본 논문은 저자들이 기존 고품질 스튜디오 녹음에 의존하던 TTS 데이터 구축 방식의 한계를 인식하고, “in‑the‑wild” 데이터, 즉 공개된 의회 회의 녹음을 대규모 TTS 코퍼스로 전환하는 방법론을 제시한다. 핵심 기술은 Emilia 파이프라인을 기반으로 한 맞춤형 전처리 흐름이다. 먼저 오디오를 24 kHz 단일 채널로 정규화하고, UVR‑MDX‑Net을 이용해 배경음과 비음성 구간을 제거한다. 이어서 Pyannote 기반 화자 다이어리제이션과 Silero VAD를 적용해 정확한 발화 구간을 추출한다. 핀란드어는 Whisper‑large‑v3가 성능이 부족해, 별도 훈련된 wav2vec2‑large 모델을 보조 전사기로 사용해 두 모델 간 전사 차이가 5 % 이하일 경우에만 데이터를 채택한다. 스웨덴어는 Whisper‑large가 충분히 강력해 단일 모델로 WER 10 % 이하인 구간을 선택한다. 최종 품질 검증은 DNS‑MOS를 활용해 P.835 OVRL 점수가 3.0 미만인 샘플을 제외함으로써 음질 기준을 명확히 설정한다.
데이터 규모는 핀란드어 900시간, 스웨덴어 5090시간으로, 기존 공개 데이터(핀란드 20‑60시간, 스웨덴은 전무)와 비교해 10배 이상 크다. 평가 세트는 각각 500개의 프롬프트‑타깃 쌍을 구성했으며, 성별·화자 균형을 맞추고 길이(3‑20 s)와 문자 수(10 자 이상)를 제한해 모델 학습 시 과도한 편향을 방지한다.
실험에서는 두 가지 비자율(Non‑AR) 디퓨전 기반 TTS 모델, Matcha‑TTS와 F5‑TTS‑Base를 각각 500k 업데이트(핀란드)·1.2M 업데이트(스웨덴)로 학습했다. 객관적 평가는 합성 음성의 문자 오류율(CER)과 화자 유사도(SIM)로, 주관적 평가는 CMOS와 SMOS를 이용해 인간‑유사성 및 화자 일치도를 측정했다. 결과는 Matcha‑TTS가 명시적 정렬(MAS) 덕분에 CER와 SIM에서 우수했으며, F5‑TTS‑Base는 인간‑유사성(CMOS)에서 다소 높은 점수를 얻었다. 특히 스웨덴어에서는 F5‑TTS‑Base가 화자 유사도에서 Matcha‑TTS를 앞섰다. 이는 정렬 방식과 화자 임베딩 사용 차이가 성능에 미치는 영향을 잘 보여준다.
전체적으로 데이터 품질 검증 절차와 대규모 “in‑the‑wild” 데이터 활용이 TTS 모델 성능 향상에 실질적인 기여를 함을 입증했으며, 공개된 코퍼스와 평가 세트는 향후 핀란드·스웨덴 TTS 연구와 다언어 모델 벤치마크에 중요한 기반이 될 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기