마스크 없는 고품질 립싱크를 위한 단계적 자기교정 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SyncAnyone는 마스크 기반 학습의 한계를 극복하기 위해 두 단계의 자기교정 학습(PSC)을 제안한다. 1단계에서는 확산 기반 비디오 트랜스포머로 마스크 입힌 입술 영역을 정확히 복원하고, 2단계에서는 이 모델이 생성한 가짜 페어 데이터를 이용해 마스크 없이 배경과 정체성을 보존하는 최종 모델을 미세조정한다. 이를 통해 야외 환경, 큰 자세 변화, 배경 전환 등 다양한 상황에서도 높은 시각 품질과 시간 일관성을 달성한다.

상세 분석

본 논문은 기존 마스크‑인페인팅 방식이 갖는 근본적인 트레이드오프, 즉 마스크 크기가 작을 경우 모델이 입술 주변의 형태학적 힌트에 의존해 오디오와 무관한 “단축 해법”을 찾고, 마스크가 크게 설정되면 배경과 정체성 정보가 손실돼 복원 품질이 저하되는 문제를 정확히 짚어낸다. 이를 해결하기 위해 제안된 Progressively Self‑Correction(PSC) 프레임워크는 두 단계로 구성된다. 첫 번째 단계에서는 확산 트랜스포머(DiT)를 Flow Matching 기반으로 학습시켜, 마스크된 입술 영역을 오디오 조건에 따라 정교히 재생성한다. 여기서 다중 레퍼런스 프레임을 활용해 장시간의 시공간 의존성을 학습함으로써, 인물 고유의 말투와 움직임을 보존한다. 그러나 마스크 입력 자체가 주변 픽셀을 왜곡시켜 배경에 미세한 아티팩트를 남긴다. 두 번째 단계에서는 이러한 한계를 보완하기 위해, 1단계 모델을 이용해 원본 비디오와 임의의 오디오를 결합해 “가짜‑페어” 데이터를 자동 생성한다. 생성된 비디오에서 배경은 원본 프레임을 그대로 복사하고, 입술 영역만 1단계 모델의 출력으로 교체함으로써 마스크‑프리 학습용 정제된 데이터셋을 만든다. 이후 마스크 없이 동일한 DiT 구조를 미세조정하여, 입술 편집만을 정확히 수행하면서 배경과 정체성을 완벽히 유지한다. 핵심 기술적 기여는 (1) 마스크‑인페인팅과 마스크‑프리 학습을 자연스럽게 연결하는 데이터 생성 파이프라인, (2) Flow Matching을 활용한 효율적인 확산 학습으로 고해상도 비디오를 빠르게 생성할 수 있게 한 점, (3) 입술 영역만을 교체하는 “배경 합성 모듈”로 인공 아티팩트를 최소화한 점이다. 실험에서는 기존 GAN 기반 및 최신 확산 기반 방법들을 넘어, 시각 품질, 시간 일관성, 정체성 보존 측면에서 모두 우수한 성능을 보이며, 특히 큰 자세 변화와 급격한 배경 전환 상황에서도 안정적인 결과를 제공한다.

마스크 없는 고품질 립싱크를 위한 단계적 자기교정 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기