고품질 입술‑음성 변환을 위한 계층형 서브스페이스 잠재 확산 모델
초록
SLD‑L2S는 시각적 입술 움직임을 사전 학습된 신경 오디오 코덱의 연속 잠재 공간으로 직접 매핑하는 새로운 입술‑음성 합성 프레임워크이다. 시각 특징을 다중 서브스페이스로 분해하고, Diffusion Convolution Block(DiCB)으로 서브스페이스 간·내 상호작용을 강화한다. 재파라미터화된 흐름 매칭(flow matching) 목표에 의미 일관성 손실과 음성 언어 모델(SLM) 손실을 추가해 음성 품질과 의미 전달력을 동시에 향상시킨다. 실험 결과, 여러 벤치마크에서 기존 최첨단 방법들을 객관·주관 평가 모두에서 능가한다.
상세 분석
본 논문은 입술‑음성 합성(L2S) 분야에서 중간 표현(멜‑스펙트로그램, SSL 토큰) 사용이 초래하는 정보 손실을 근본적으로 해결하고자 한다. 핵심 아이디어는 사전 학습된 신경 오디오 코덱(예: HiFi‑Codec)의 연속 잠재 벡터를 직접 예측함으로써, 음성의 미세한 파형 특성을 보존하는 것이다. 이를 위해 저자들은 세 가지 주요 기술적 기여를 제시한다.
첫째, 계층형 서브스페이스 분해 단계에서 시각 특징을 시간적으로 업샘플링한 뒤, 다수의 병렬 1D 컨볼루션 서브스페이스로 분할한다. 각 서브스페이스는 독립적인 레이어 정규화와 컨볼루션을 거쳐 서로 다른 음향‑시각 매핑 패턴을 학습한다. 이렇게 하면 단일 고차원 매핑보다 표현의 다양성과 견고함이 크게 향상된다.
둘째, **Diffusion Convolution Block(DiCB)**를 백본으로 채택한다. 기존 Diffusion Transformer(DiT)는 전역 셀프‑어텐션에 의존해 연산량이 급증하고, 지역적·계층적 패턴 포착에 한계가 있다. DiCB는 깊이별 컨볼루션 어텐션(시간×서브스페이스 커널)과 컨볼루션형 피드포워드 모듈을 결합해, 로컬 상호작용과 서브스페이스 간 교차 의존성을 효율적으로 모델링한다. 또한 AdaLN‑SOLA를 이용해 시간 스텝 t와 화자 임베딩 cₛ를 저비용으로 조건화함으로써 학습 안정성을 높인다.
셋째, **재파라미터화된 흐름 매칭(flow matching)**을 사용한다. 전통적인 DDPM 기반 디노이징 손실 대신, 선형 ODE 경로 xₜ = (1‑t)x₀ + t x₁에 대한 정확한 속도 필드 v(xₜ,t)=x₁‑x₀를 학습한다. 여기서 컨텍스트 C는 앞서 추출된 시각 서브스페이스 텐서이다. 흐름 매칭은 샘플링 단계에서 ODE를 수치적으로 적분해 목표 잠재 분포를 직접 생성하므로, 고품질 연속 잠재를 빠르게 얻을 수 있다.
이 기본 흐름 매칭 손실 외에 두 개의 보조 손실을 도입한다. 의미 일관성 손실은 생성된 잠재 벡터와 실제 코덱 잠재 사이의 의미적 유사성을 L2 혹은 코사인 거리로 정규화해, 의미 정보가 손실되지 않도록 한다. 음성 언어 모델(SLM) 손실은 디코딩된 최종 파형을 사전 학습된 음성 언어 모델에 입력해 로그 확률을 최소화함으로써, 음성의 자연스러움과 언어적 일관성을 강화한다.
실험에서는 LRS3‑Lip, GRID, 그리고 VoxCeleb2‑Lip 등 다중 화자·다중 도메인 데이터셋을 사용했다. 객관 지표인 PESQ, STOI, WER에서 기존 멜‑스펙트로그램 기반 Diffusion 모델 및 SSL 토큰 기반 방법들을 크게 앞섰으며, 주관 청취 테스트(MOS)에서도 평균 4.3점(최대 5점) 이상의 높은 점수를 기록했다. 특히, 화자 변동성과 억양 다양성이 큰 상황에서도 안정적인 합성이 가능함을 보였다.
전체적으로 SLD‑L2S는 (1) 중간 표현을 배제하고 코덱 잠재를 직접 예측함으로써 정보 손실을 최소화, (2) 서브스페이스 구조와 DiCB를 통해 시각‑음향 매핑의 복잡성을 효율적으로 처리, (3) 흐름 매칭과 다중 손실 설계로 학습 목표를 풍부하게 만든 점이 혁신적이다. 향후 대규모 무라벨 영상‑음성 데이터와 더 정교한 화자 제어 메커니즘을 결합한다면, 실시간 고품질 입술‑음성 변환 시스템으로의 확장이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기