DMP TTS: 음색과 말투를 분리해 정밀하게 조종하는 다중 모달 TTS 기술
초록
DMP-TTS는 텍스트를 음성으로 변환(TTS)할 때 화자의 음색과 말투 스타일을 독립적으로 정밀 제어할 수 있는 새로운 프레임워크입니다. 오디오 또는 텍스트로 스타일을 설명하는 다중 모달 프롬프팅을 지원하며, 체인 방식의 가이던스와 표현 정렬 기법을 도입해 높은 제어성과 자연스러움, 명료성을 동시에 달성했습니다.
상세 분석
DMP-TTS의 기술적 핵심은 크게 세 가지로 구분됩니다. 첫째, Style-CLAP이라는 통합 다중 모달 스타일 인코더입니다. 기존 CLAP 모델을 기반으로, 참조 오디오와 설명 텍스트에서 추출한 스타일 정보를 하나의 공유 임베딩 공간에 정렬합니다. 단순한 대조 학습뿐만 아니라 감정, 에너지, 말속도와 같은 스타일 속성에 대한 다중 작업 지도 학습을 추가해, 학습된 표현이 스타일을 더 잘 구분하고 설명할 수 있도록 강화했습니다. 이 과정에서 음색과 관련된 정보(성별, 나이 등)를 의도적으로 배제함으로써 스타일과 음색의 혼선을 최소화하는 데 주력했습니다.
둘째, 체인 방식의 Classifier-Free Guidance(cCFG) 메커니즘입니다. 기존 CFG가 모든 조건을 한꺼번에 켜거나 끄는 방식이라면, cCFG는 계층적 조건 드롭아웃 전략을 통해 내용(텍스트), 음색(화자), 스타일이라는 세 가지 조건을 독립적으로 조절할 수 있는 길을 열었습니다. 학습 시 조건을 계층적으로 제거하고, 추론 시에는 각 조건에 대한 가이던스 강도(s_text, s_spk, s_style)를 개별적으로 조절해 최종 음성을 생성합니다. 이를 통해 “목소리는 A인데 말투만 B처럼"과 같은 정밀한 제어가 가능해졌습니다.
셋째, 표현 정렬(REPA) 기술입니다. 사전 학습된 Whisper 모델의 음성-의미론적 특징을 디퓨전 트랜스포머(DiT)의 중간 표현에 주입하는 지식 증류 방식입니다. 이는 DiT 모델의 학습 안정성을 높이고 수렴 속도를 가속화하며, 최종 생성 음성의 언어적 정확도(WER 개선)를 높이는 효과를 가져왔습니다.
이러한 기술적 조합 덕분에 DMP-TTS는 대규모 오픈소스 베이스라인 대비 월등한 스타일 제어 정확도(감정, 에너지, 말속도)를 보여주었습니다. 특히 텍스트 프롬프트는 스타일 제어에 더 안정적이고, 오디오 프롬프트는 더 풍부한 운율 정보로 인해 자연스러움(NMOS) 점수가 더 높은 등 모달리티별 특성도 확인되었습니다. 아키텍처가 Diffusion Transformer 기반으로 모듈화되어 있어 다른 백본으로의 확장에도 유리하다는 점도 중요한 장점입니다.
댓글 및 학술 토론
Loading comments...
의견 남기기