신경 TTS 시스템의 자음 유발 F0 변동 모델링 능력 평가
초록
본 논문은 자음이 뒤따르는 모음의 기본 주파수(F0) 변동을 정밀하게 측정하는 프로빙 프레임워크를 제안한다. 동일한 LJ Speech 데이터를 기반으로 학습된 Tacotron 2와 FastSpeech 2의 합성 음성을 자연 음성과 비교하고, 어휘 빈도에 따라 고빈도·저빈도 단어에서의 재현 정확도를 분석한다. 결과는 고빈도 단어에서는 변동을 잘 모방하지만, 저빈도·미보유 단어에서는 크게 떨어지는 한계를 드러낸다. 또한 다중 스피커·다양한 최신 TTS 모델을 포함한 대규모 실험을 통해 이러한 현상이 일반적인 구조적 문제임을 확인한다.
상세 분석
이 연구는 “자음 유발 F0 perturbation”(CF0)이라는 미세한 음성학 현상을 신경 기반 텍스트‑투‑스피치(TTS) 모델이 얼마나 잘 학습했는지를 평가하기 위해, 전통적인 전반적 자연스러움 평가를 넘어선 세분화된 프로빙 방식을 도입했다. 주요 기여는 다음과 같다.
-
프로빙 프레임워크 설계: 자음 종류(유성·무성 폐쇄음, 유음)와 모음 높이(고·중·저)를 체계적으로 매핑하고, 각 토큰을 21개의 등간 시점으로 정규화한 F0 궤적을 추출한다. 이는 시간적 비선형 변화를 포착하면서도 토큰 간 비교를 가능하게 하는 정교한 전처리이다.
-
실험 설계와 데이터: LJ Speech 단일 화자를 기준으로 Tacotron 2(autoregressive)와 FastSpeech 2(non‑autoregressive)를 동일 코퍼스로 학습시켰다. 이후 COCA에서 무작위 추출한 4,210문장을 합성하고, MF‑Aligner와 Praat를 이용해 음소 정렬·F0 추출을 수행했다. 어휘 빈도는 SUBTLEX‑US 기준으로 고·저 빈도 1,000개씩을 균형 있게 선정해, 모델이 학습 데이터에 대한 ‘암기’와 ‘추상화’ 능력을 구분할 수 있게 했다.
-
통계 모델링: AR1 구조의 GAMM(Generalized Additive Mixed Model)을 사용해 시간에 따라 변하는 F0 차이를 onset type(무성 폐쇄음, 유성 폐쇄음, 유음)별로 추정했다. 단어와 모음 높이를 랜덤·고정 효과로 포함시켜, 개별 어휘·음성 특성의 영향을 통제하였다. 95% 신뢰구간을 활용한 차이 플롯으로 시각화했으며, k=5의 basis dimension을 통해 과적합 없이 충분한 곡선 유연성을 확보했다.
-
핵심 결과: 고빈도 단어에서는 합성 음성이 자연 음성과 유사한 CF0 패턴을 보였으며, 특히 Tacotron 2가 약간 더 큰 차이를 보였다. 반면 저빈도·미보유 단어에서는 두 모델 모두 sonorant 기준선 대비 무성 폐쇄음에 의한 F0 상승을 거의 재현하지 못했으며, 유성 폐쇄음에 대한 억제 효과도 약했다. 이는 모델이 ‘음소‑F0 상관관계’를 일반화하기보다 훈련 데이터에 나타난 빈번한 패턴을 기억하는 경향이 있음을 시사한다.
-
대규모 확장 실험: In‑the‑Wild 데이터셋(58명 공개 인물, real vs. deepfake)으로 동일 프로빙을 적용한 결과, 최신 상용·오픈소스 TTS 모델들 역시 저빈도·다중 화자 상황에서 CF0 재현이 크게 떨어졌다. 이는 구조적 한계가 특정 아키텍처(Tacotron 2, FastSpeech 2)에 국한되지 않으며, 전반적인 신경 TTS 설계가 세분화된 음성‑음운 상호작용을 명시적으로 모델링하지 않을 경우 발생한다는 점을 강조한다.
-
의의와 향후 과제: 본 논문은 “세분화된 음성‑음운 프로빙”이라는 새로운 평가 패러다임을 제시함으로써, TTS 연구자들이 모델 내부의 음성학적 인코딩을 정량적으로 검증할 수 있는 도구를 제공한다. 향후 연구에서는 (1) 명시적 segment‑prosody 모듈(예: 컨볼루션 기반 음소‑조건부 피치 예측기) 도입, (2) 멀티스피커·멀티언어 학습을 통한 일반화 능력 강화, (3) 데이터 증강을 통한 저빈도 어휘 노출 확대 등을 통해 CF0와 같은 미세 현상의 재현성을 높이는 방향을 모색할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기