제로샷 TTS를 위한 음성 인상 제어
초록
본 논문은 제로샷 텍스트‑투‑스피치 시스템에 음성 인상 제어 벡터를 도입하여, “어두‑밝음”, “남‑여” 등 11개의 대비 항목에 대한 강도를 저차원 벡터로 조절한다. LLM을 활용해 자연어 설명을 벡터로 자동 변환함으로써 수동 튜닝 없이도 원하는 인상을 구현한다. 객관·주관 평가에서 인상 변조가 성공적으로 이루어짐을 확인하고, 화자 유사도 손실을 최소화한다.
상세 분석
본 연구는 기존 제로샷 TTS가 화자 특성 복제에는 성공했지만, 파라‑비언어적 인상(예: 어두‑밝음, 남‑여 등)을 정밀하게 제어하기 어려운 문제를 해결하고자 한다. 핵심 아이디어는 “음성 인상 벡터”(Voice Impression Vector, VIV)를 도입하는 것이다. VIV는 11개의 대비 항목을 각각 1~7 척도로 표현한 11차원 실수 벡터이며, 각 차원은 해당 인상의 강도를 의미한다. 이 벡터는 저차원임에도 불구하고 인간 청취자가 직관적으로 이해할 수 있는 의미를 담고 있어, 사용자는 원하는 인상을 직접 수치화하거나 자연어 프롬프트를 통해 자동 생성할 수 있다.
기존 제로샷 TTS 파이프라인은 SSL 기반 스피치 인코더와 스타일 토큰 레이어(STL)를 통해 화자 임베딩 x를 추출한다. 그러나 x에는 화자 고유 특성뿐 아니라 인상, 피치, 리듬 등 다양한 정보가 얽혀 있어 직접 제어가 어렵다. 이를 해결하기 위해 논문은 두 단계의 제어 메커니즘을 설계한다. 첫째, Gradient Reversal Layer(GRL)와 0.8 비율의 고드롭아웃을 적용해 x에서 인상 정보를 억제한다. 이는 x가 화자 고유 특성만을 보존하도록 강제하고, 인상 관련 정보는 별도 경로로 전달되게 만든다. 둘째, 억제된 x와 VIV를 각각 32차원으로 투사한 뒤, 두 정보를 결합(concat)하여 TTS 디코더에 입력한다. 이렇게 하면 디코더는 VIV에 의해 지정된 인상 강도만을 반영해 음성 파라미터를 조정하고, 화자 고유성은 x에 의해 유지된다.
인상 벡터의 자동 생성은 LLM(대형 언어 모델)을 활용한다. 프롬프트는 “목표 인상: 차분하고 부드러운 목소리”와 같은 자연어 설명과, 각 대비 항목에 대한 점수 정의를 포함한다. LLM은 이를 해석해 11차원 점수 벡터를 출력하고, 사용자는 필요에 따라 미세 조정한다. 이 접근법은 기존 텍스트 기반 스타일 제어가 “전반적인 스타일”에 머무는 반면, 고차원 인상 정보를 구체적으로 제어할 수 있게 한다.
실험은 1,800시간 규모의 일본어 데이터베이스(20,270명 화자)에서 진행되었다. 10개의 인상 항목은 주관 평가(7점 Likert)와 자동 라벨링 파이프라인을 통해 벡터화되었으며, 자동 라벨링 모델은 HuBERT‑BASE 기반 SSL + BiLSTM + Attention 구조로 MSE 0.338의 높은 정확도를 보였다. TTS 백본은 FastSpeech2, 보코더는 HiFi‑GAN을 사용했으며, 제어 모듈만 50k 스텝 동안 학습했다.
객관 평가에서는 단일 차원 및 다중 차원(예: Powerful‑Weak와 Tense‑Relaxed) 변조 실험을 통해 VIV의 변동이 실제 음성 인상 점수에 일관되게 반영됨을 확인했다. 또한 Resemblyzer 기반 화자 유사도 측정에서 변조 수준이 증가할수록 유사도가 약간 감소했지만, 동일 화자 녹음과 비교했을 때 여전히 높은 유사도를 유지했다. 주관 평가에서는 변조 레벨 ±3에 대해 목표 인상 점수가 평균 0.5~0.7 정도 상승했으며, 청취자는 인상 변화와 화자 정체성 유지 사이의 균형을 긍정적으로 평가했다.
이러한 결과는 저차원 인상 벡터와 LLM 기반 자동 매핑이 제로샷 TTS에서 고차원 파라‑비언어적 특성을 정밀하게 제어할 수 있음을 입증한다. 특히 화자 임베딩과 인상 정보를 명확히 분리함으로써, 기존 방법이 겪던 “인상‑화자 얽힘” 문제를 효과적으로 해결한다. 향후 다국어 확장, 더 풍부한 인상 항목 추가, 그리고 실시간 인터랙티브 제어 등으로 연구를 확장할 여지가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기