감정 정렬을 위한 단계별 선호 최적화 기반 확산 TTS

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 확산 기반 텍스트‑투‑스피치(텍스트‑음성 변환) 모델에 감정 선호를 단계별로 정밀하게 적용하는 프레임워크인 EASPO를 제안한다. 시간‑조건부 감정‑선호 모델(EASPM)을 이용해 각 디노이징 단계에서 생성된 후보 음성의 감정 일관성을 점수화하고, 가장 높은 점수와 가장 낮은 점수의 쌍을 승·패 쌍으로 선택한다. 이후 승·패 쌍의 로그우도 차이를 감정 보상 차이와 일치시키는 손실을 최소화함으로써, 전체 생성 과정에 걸쳐 세밀한 감정 제어와 자연스러운 발화를 동시에 달성한다. 실험 결과, 기존 감정‑제어 TTS 모델 대비 감정 유사도, 억양 유사도, 인식 오류율(WER), 자연스러움(UTMOS) 모두에서 우수한 성능을 보였다.

상세 분석

EASPO(Emotion‑Aware Stepwise Preference Optimization)는 기존 확산 기반 TTS가 겪는 두 가지 근본적인 한계를 해결한다. 첫째, 감정 라벨이나 프록시 분류기에 의존하는 거친 감독이 아니라, 인간 청취자가 실제로 선호하는 미세한 감정 차이를 직접 반영한다는 점이다. 둘째, 기존 DPO(Direct Preference Optimization) 방식은 최종 출력에만 선호를 부여하고 이를 전체 디노이징 경로에 전파한다. 이는 “모든 중간 상태가 동일하게 선호된다”는 가정을 내포하는데, 감정은 시간에 따라 변하고 억양·피치·강세와 복합적으로 얽혀 있기 때문에 이 가정은 현실적이지 않다.

EASPO는 이러한 문제를 단계별 선호로 전환한다. 디노이징 단계 t에서 현재 잠재 변수 x_t를 기준으로 k개의 후보 x_{i}^{t‑1}를 샘플링한다. 여기서 EASPM(Emotion‑Aware Stepwise Preference Model)은 CLEP 기반의 오디오‑텍스트 대조 임베딩을 활용해 각 후보의 감정‑프롬프트 일치 점수 s_i를 계산한다. 점수는 시간‑조건부 오디오 인코더와 텍스트 인코더 사이의 코사인 유사도로 정의되며, τ 온도 파라미터를 이용해 승·패 확률을 로지스틱 함수로 변환한다. 가장 높은 점수와 가장 낮은 점수를 가진 후보를 각각 승( win )과 패( lose )로 지정하고, 이 쌍에 대해 로그우도 차이 Δρ_t와 감정 보상 차이 ΔbR_t를 구한다.

핵심 손실 L_t(θ)=β_t (Δρ_t − ΔbR_t)^2 은 두 차이를 일치시키는 MSE 형태이며, β_t는 남은 디노이징 단계가 많을수록(초기 단계) 더 큰 가중치를 부여하도록 설계된 시간 가중치이다. 이는 초기 고노이즈 단계에서는 감정 신호가 약해질 수 있으므로, 중간·후반 단계에서 보다 강한 정렬을 유도한다. 또한, 승·패 쌍을 구성한 뒤 다음 단계의 시작점은 승·패 후보 중 무작위로 선택한다. 이는 특정 경로에 편향되지 않도록 하여 다양성을 유지하고, “승리 후보만을 계속 사용하면 경로가 고정된다”는 문제를 방지한다.

EASPM 자체는 사전 학습된 CLEP 모델을 기반으로 하며, 추가적인 시간‑조건화 레이어와 노이즈‑대응 학습을 통해 중간 디노이징 상태에서도 의미 있는 감정 점수를 산출하도록 미세 조정된다. 학습 시에는 원본 승·패 쌍을 임의의 시간 t에 전파시켜, 모델이 다양한 노이즈 레벨에서 감정 차이를 인식하도록 만든다.

실험에서는 Grad‑TTS를 베이스 디코더로 사용하고, MSP‑Podcast 데이터셋(55k 발화)으로 EASPM을 사전 학습한 뒤, ESD(Emotion Speech Dataset)에서 5가지 감정·10명 화자를 대상으로 파인튜닝했다. 후보 수 k=4, 초기 고노이즈 단계 κ=0, 시간 범위

감정 정렬을 위한 단계별 선호 최적화 기반 확산 TTS

초록

상세 분석

댓글 및 학술 토론

의견 남기기