시각 기반 음성 합성의 새로운 장 LipSody 프로소디 일관성 강화

시각 기반 음성 합성의 새로운 장 LipSody 프로소디 일관성 강화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LipSody는 얼굴 영상에서 입술 움직임, 화자 이미지, 감정 정보를 동시에 활용해 음성의 피치와 에너지 등 프로소디를 정밀히 예측하고, 확산 모델 기반으로 고품질 멜스펙트럼을 생성한다. 기존 LipVoicer 대비 전역·국부 F0 오차와 에너지 일관성이 크게 감소했으며, 화자 유사도와 주관적 자연스러움에서도 향상을 보였다.

상세 분석

본 논문은 최근 확산 기반 Lip‑to‑Speech 모델인 LipVoicer의 한계를 극복하고자, 프로소디 일관성을 핵심 목표로 하는 LipSody 프레임워크를 제안한다. 주요 기술적 기여는 세 가지 시각적 단서를 결합한 프로소디 가이드 전략이다. 첫째, 전체 얼굴 이미지에서 추출한 화자 임베딩(s)은 화자 고유의 음성 특성을 제공한다. 둘째, 입술 중심 영상 시퀀스에서 얻은 언어 내용 임베딩(c)은 기존 LipVoicer와 동일하게 텍스트 정보를 암시한다. 셋째, 감정 인코더(o)를 통해 시간에 따라 변하는 감정 표현을 포착함으로써 피치·에너지 변동을 정교히 조절한다. 이 세 임베딩을 concat 후, 별도 학습된 피치·에너지 예측 네트워크가 프레임별 p̂, ê 를 생성한다.

학습 단계에서는 실제 음성에서 추출한 정답 피치·에너지(p, e)를 사용해 프로소디 손실을 직접 제공하고, 스피커별 정규화를 적용해 에너지 스케일을 화자 고유 분포에 맞춘다. 확산 과정에서는 기존 CFG(조건부 클래스 프리 가이드)와 CG(클래스 가이드)를 유지하면서, 예측된 p̂, ê 를 조건에 포함시켜 노이즈 예측식 ϵ = (1+w1)·ϵθ(x_t,s,p̂,ê,c) – w1·ϵθ(x_t) – w2·√(1-ᾱ_t)∇_{x_t}log p(l|x_t) 로 정의한다. 여기서 w1, w2는 각각 CFG와 CG의 가중치이며, 실험에서는 w1=2, w2=1.5 로 설정하였다.

프로소디 예측 네트워크는 사전 학습된 Speaker Encoder와 Content Encoder를 고정하고, 감정 임베딩을 추가해 self‑attention 기반의 피치·에너지 디코더를 학습한다. 손실은 MSE이며, 각 프레임별 예측 정확도를 높이기 위해 Fast Context‑based Pitch Estimator와 로그‑멜 기반 에너지 추출기를 활용한다.

평가에서는 LRS3 데이터셋의 unseen speaker 설정을 사용했으며, 기존 LipVoicer와 동일한 확산 파라미터(T=400, β 스케줄)와 vocoder(HiFi‑GAN)를 적용했다. 객관적 지표로는 WER, STOI, DNSMOS, LSE‑D/C를 유지하면서, 프로소디 전용 지표인 GF0, LF0, EC, Resem, Resem_tv를 새롭게 도입했다. 결과는 LipSody가 GF0(전역 피치 평균 오차) 25.15→28.87, LF0(프레임별 피치 오차) 41.06→45.26, EC(에너지 일관성) 0.9141→1.2667 등에서 유의미하게 개선됨을 보여준다. 특히 감정 정보를 제외한 실험(w/o emotion)에서도 대부분의 개선 효과가 유지되었으며, 오라클 피치·에너지(p,e) 사용 시 최상위 성능을 기록했다.

주관적 평가에서는 MOS 기반 자연스러움 점수가 3.47점( LipSody) vs 3.36점(LipVoicer recon)으로 소폭 상승했으며, ABX 테스트에서 54.22%가 LipSody의 프로소디가 원본에 더 가깝다고 판단했다. 이는 청자들이 프로소디 차이를 인지하고 선호한다는 증거이다.

종합적으로, LipSody는 시각적 화자·언어·감정 정보를 통합해 프로소디를 명시적으로 모델링함으로써, 기존 확산 기반 Lip‑to‑Speech 시스템이 놓치기 쉬운 피치·에너지 변동을 효과적으로 복원한다. 이는 음성 합성뿐 아니라 감정 전달, 화자 맞춤형 인터페이스 등 멀티모달 인간‑컴퓨터 상호작용 분야에 중요한 전진을 의미한다.


댓글 및 학술 토론

Loading comments...

의견 남기기