글로벌 스타일 토큰을 활용한 무감독 음성 스타일 제어와 전이

본 논문은 최신 엔드‑투‑엔드 TTS 모델인 Tacotron에 “글로벌 스타일 토큰(GST)”이라는 새로운 모듈을 도입하여, 음성의 억양·속도·감정 등 복합적인 스타일 정보를 라벨 없이 학습하고 제어하는 방법을 제시한다. 1. **배경 및 동기** 기존 TTS 시스템은 텍스트‑스펙트로그램 매핑에 집중해 평균적인 프로소디를 생성하는 경향이 있다. 인간의 말은 억양, 강세, 감정 등 다양한 스타일 요소가 복합적으로 작용하는데, 이를 명시적으로 모델링하려면 방대한 라벨링 작업이 필요하거나, 스타일이 제한된 사전 정의된 클래스에만 국한된다. 따라서 라벨 없이도 스타일을 자동으로 추출하고, 이를 자유롭게 조작할 수 있는 메커니즘이 요구된다. 2. **모델 구조** - **참조 인코더**: 로그‑멜 스펙트로그램을 6개의 2‑D 컨볼루션(3×3, stride 2)과 배치 정규화·ReLU를 거쳐 차원을 축소하고, 128‑유닛 단방향 GRU로 시퀀스를 요약한다. 최종 GRU 상태가 “참조 임베딩”이다. - **스타일 토큰 레이어**: N개의 학습 가능한 토큰(논문에서는 10개, 차원 256)과 참조 임베딩 사이에 콘텐츠‑베이스 어텐션을 적용한다. 어텐션 가중치는 소프트맥스로 정규화되어 각 토큰의 기여도를 나타낸다. - **스타일 임베딩**: 어텐션 가중치와 토큰을 가중합해 얻은 벡터를 텍스트 인코더의 모든 타임스텝에 더한다. 이렇게 하면 텍스트와 스타일이 완전히 분리된 형태로 결합된다. - **Tacotron 디코더**: 기존과 동일하게 멜 스펙트로그램을 예측하고, 이후 Griffin‑Lim 혹은 WaveNet 등으로 파형을 복원한다. 3. **학습 방식** 전체 네트워크는 텍스트‑음성 쌍을 입력받아 재구성 손실(L1/L2)만으로 최적화한다. 스타일 토큰은 별도 손실이나 라벨 없이, 디코더의 재구성 오류를 최소화하는 과정에서 자동으로 의미 있는 클러스터를 형성한다. 4. **추론 및 제어 방법** - **스타일 전이**: 임의의 음성 파일을 참조 인코더에 넣어 얻은 스타일 임베딩을 사용하면, 해당 음성의 억양·감정을 그대로 복제한 합성을 수행한다. 텍스트와 음성 내용이 일치하지 않아도 된다. - **토큰 직접 제어**: 참조 인코더를 생략하고 특정 토큰(또는 토큰들의 가중합)을 직접 선택·스케일링함으로써 원하는 스타일을 명시적으로 지정한다. 스케일링 값이 클수록 스타일 효과가 강화되지만, 과도한 값은 발음 불명료성을 초래한다. 5. **실험 및 결과** - **데이터**: 147시간 분량의 미국 영어 오디오북(Blizzard 2013 스피커) 사용. - **품질 평가**: GST를 적용한 모델이 기본 Tacotron 대비 MOS 4.0을 기록, 기존 3.82보다 향상. - **스타일 선택**: 토큰 A, B, C를 각각 적용해 두 문장의 F0·C0 변화를 시각화했을 때, 동일 토큰이 서로 다른 텍스트에서도 일관된 피치·에너지 패턴을 보였다. 이는 토큰이 특정 스타일 속성을 캡처함을 의미한다. - **스케일링**: 토큰 임베딩에 -0.3~0.5 사이의 스케일을 적용해 속도·감정 변화를 조절했으며, 음성 길이와 억양이 선형적으로 변하는 것을 확인했다. - **멀티헤드 어텐션**: 헤드 수를 늘리면 토큰 수를 늘리는 것보다 스타일 전이 품질이 크게 개선되었다. - **노이즈 데이터**: 잡음이 섞인 비정제 데이터에서도 GST가 잡음 전용 토큰과 화자 전용 토큰을 구분해 학습함으로써, 노이즈에 강인한 합성 결과를 얻었다. 6. **해석 및 관계 연구** - GST는 VQ‑VAE와 유사하게 입력을 소프트 클러스터(토큰)로 양자화한다. 다만, 어텐션 기반 가중합을 사용해 연속적인 스타일 혼합이 가능하다. - 메모리‑증강 네트워크 관점에서 토큰 뱅크는 외부 메모리 역할을 하며, 참조 신호가 쓰기, 추론 시가 읽기 역할을 수행한다. - 기존 AutoBI, i‑vector 기반 클러스터링 등은 라벨 혹은 복잡한 피처 엔지니어링이 필요했지만, GST는 순수하게 엔드‑투‑엔드 학습만으로 동일한 목표를 달성한다. 7. **한계 및 향후 과제** - 토큰 간 상관관계가 높아 독립적인 스타일 요소를 완전히 분리하기 어렵다. - 스케일링에 따른 발음 안정성 문제가 존재한다. - 토큰 수·차원, 어텐션 형태 등에 대한 최적화가 필요하며, VQ‑like 이산화와의 결합, 메모리‑증강 기법 적용 등이 향후 연구 방향이다. 8. **결론** GST는 라벨이 없는 대규모 음성 데이터에서도 스타일 공간을 자동으로 구축하고, 토큰 선택·스케일링을 통해 직관적인 스타일 제어와 전이를 가능하게 한다. 이는 TTS가 단순 텍스트‑음성 변환을 넘어, 인간과 유사한 감정·억양 표현을 구현하는 데 중요한 전진을 의미한다.

글로벌 스타일 토큰을 활용한 무감독 음성 스타일 제어와 전이

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기