스타일 토큰으로 끌어내는 표현력 풍부한 음성 합성
초록
본 논문은 Tacotron 기반 TTS 모델에 “스타일 토큰”이라는 잠재 변수 집합을 도입하여, 텍스트만으로는 포착하기 어려운 다양한 prosody(억양·리듬·톤) 요소를 자동으로 학습한다. 스타일 토큰은 무지도 학습으로 얻어지며, 각 토큰은 텍스트와 무관하게 고정된 억양 스타일을 나타내어 합성 시 전역적으로 일관된 prosody 제어가 가능하다. 실험 결과, 토큰별로 피치 궤적과 발화 스타일이 뚜렷이 구분되는 것을 확인하였다.
상세 분석
이 연구는 Tacotron의 인코더‑디코더‑어텐션 구조에 새로운 “스타일 인코더”와 “스타일 어텐션” 경로를 추가함으로써, 텍스트 인코더와는 별개로 전역적인 스타일 토큰 집합 K를 학습한다. 스타일 토큰은 초기에는 무작위 임베딩으로 시작하고, 디코더의 재구성 손실만을 통해 역전파되며, 텍스트와 독립적인 잠재 변수로서 작동한다. 어텐션 메커니즘은 각 타임스텝에서 텍스트 어텐션과 스타일 어텐션을 병렬로 계산하고, 컨트롤러 MLP가 두 컨텍스트 벡터를 가중합한다. 이 설계는 (1) 스타일 토큰이 서로 독립적인 억양 요소를 학습하도록 유도하고, (2) 타임스텝 수준에서 스타일 토큰을 가변적으로 조합함으로써 시간에 따라 변하는 억양 조절을 가능하게 한다는 점에서 기존의 전역적인 스타일 코드와 차별화된다.
학습 과정에서 스타일 토큰은 전역적인 “프라이어” 역할을 수행한다. 즉, 모든 훈련 샘플에 대해 동일한 토큰 집합을 공유하므로, 텍스트 입력이 동일하더라도 토큰 선택에 따라 전혀 다른 억양을 생성할 수 있다. 실험에서는 10개의 토큰을 사용했으며, 토큰 1은 느슨하고 중간 피치, 토큰 8은 로봇‑같은 평탄한 저음, 토큰 9는 높은 피치를 갖는 스타일로 구분되었다. F0 스무딩 결과와 청취 테스트에서 이러한 차이가 일관되게 나타났다. 또한, 텍스트 어텐션 가중치가 발화 구간 경계와 일치하는 패턴을 보였는데, 이는 모델이 내용(텍스트)과 스타일(토큰)을 교대로 결정한다는 가설을 뒷받침한다.
이 접근법의 장점은 (i) 라벨이 없는 대규모 코퍼스에서도 자동으로 억양 변이를 추출한다는 점, (ii) 기존 Tacotron 파이프라인에 최소한의 구조적 변경만으로 적용 가능하다는 점, (iii) 스타일 토큰을 선형 결합하거나 브로드캐스트‑어드 방식으로 삽입함으로써 사용자가 원하는 억양을 직관적으로 조작할 수 있다는 점이다. 한계로는 토큰 수와 초기화에 따라 학습 안정성이 달라질 수 있으며, 토큰을 강제 고정하여 합성할 경우 가끔 음성의 가독성이 저하될 수 있다는 점을 언급한다. 향후 메모리‑증강 네트워크와 결합하거나, 감정·강세와 같은 외부 라벨과 통합하는 연구가 제안된다.
댓글 및 학술 토론
Loading comments...
의견 남기기