제로샷 억양 생성의 새로운 패러다임, AccentBox
초록
AccentBox는 억양 식별(GenAID) 모델을 사전학습하고, 이를 제로샷 TTS(YourTTS)에 결합해 화자와 억양을 독립적으로 제어한다. 스피커‑억양 얽힘을 완화하기 위해 정보 병목과 적대적 학습을 도입했으며, 미보인 화자·억양에 대해 0.56 F1의 억양 식별 성능과 57‑70 %의 억양 유사도 선호도를 달성한다.
상세 분석
본 논문은 기존 제로샷 TTS가 화자 음성은 잘 재현하지만 억양을 제대로 반영하지 못한다는 근본적인 한계를 지적한다. 이를 해결하기 위해 저자는 “제로샷 억양 생성”이라는 새로운 과제를 정의하고, 두 단계 파이프라인을 제안한다. 첫 단계인 GenAID는 XLSR‑large 기반의 억양 식별 모델로, (1) 미보인 화자에 대한 검증을 강제해 스피커‑억양 매핑을 기억하는 과적합을 방지하고, (2) 억양 라벨의 불균형을 완화하기 위해 가중 샘플링을 적용한다. 또한 (3) 속도·노이즈 변조를 통한 데이터 증강으로 음성 환경 변동성에 강인하게 만든다. 핵심은 (4) 정보 병목(64‑차원 MLP)으로 고차원 XLSR 임베딩에서 억양에 필요한 핵심 정보만 추출하고, (5) 적대적 학습을 통해 스피커 예측을 균등 분포에 가깝게 만들면서 스피커 정보를 최소화한다. 손실은 억양 교차 엔트로피와 스피커 MSE 손실의 가중합이며, α=10으로 설정했다. 실험 결과, 이러한 설계가 억양 분류 F1를 0.41→0.56, 정확도 격차를 0.53→0.06으로 크게 줄였으며, Silhouette Coefficient도 0.236→0.079로 감소해 스피커 얽힘이 실질적으로 완화됐음을 보여준다.
두 번째 단계인 AccentBox는 사전학습된 GenAID 억양 임베딩을 YourTTS의 텍스트 인코더와 Stochastic Duration Predictor에 조건으로 주입한다. 기존 YourTTS가 언어 ID를 원‑핫으로 받던 것을 연속적인 억양 임베딩으로 교체함으로써, (1) 억양을 연속적인 벡터로 표현해 미세한 변화를 포착하고, (2) 화자와 억양을 별도 제어할 수 있게 된다. 학습 시에는 동일 텍스트를 다양한 억양·화자 조합으로 입력해 억양‑화자 분리를 학습한다.
평가에서는 (i) 억양 코사인 유사도, (ii) 스피커 코사인 유사도, (iii) 주관적 청취 테스트(억양·화자 유사도·자연스러움) 세 축을 사용했다. 특히 억양 유사도 선호도는 기존 Accent_ID(원‑핫) 대비 57.4 %~70.0 %로 크게 앞섰으며, 화자 유사도는 기존 시스템과 비슷하거나 약간 우수했다. 교차 억양 실험에서 화자와 억양이 불일치할 때도 AccentBox는 억양을 정확히 반영하면서 화자 특성은 유지하는 모습을 보였다.
한계점으로는 (1) 미보인 억양에 대한 평가가 제한된 데이터(미국·아일랜드)로만 수행됐으며, (2) 대규모 LLM 기반 TTS와 비교했을 때 음질·속도 측면에서 아직 격차가 있을 수 있다. 향후 연구에서는 더 다양한 억양·언어를 포함한 멀티‑언어 확장, 그리고 LLM 기반 디코더와의 융합을 통해 자연스러움과 제어성을 동시에 극대화하는 방향이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기