실시간 제어 가능한 모션‑스페이스 디퓨전 기반 토킹 헤드 합성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
Ditto는 오프‑더‑쉘프 모션 추출기와 조건부 디퓨전 트랜스포머를 결합해, 얼굴 움직임을 별도의 모션 공간에 표현한다. 정체성‑무관한 모션 표현을 학습하고, 감정·눈 상태·키포인트 등 다양한 조건을 이용해 미세 제어가 가능하도록 설계했으며, 스트리밍 파이프라인 최적화로 단일 GPU에서 실시간(30 fps) 추론과 낮은 첫 프레임 지연을 달성한다.
상세 분석
Dit토 논문은 기존 디퓨전 기반 토킹 헤드 모델이 안고 있던 두 가지 근본적인 한계—제어성 부족과 추론 지연—를 동시에 해결하려는 시도로 눈길을 끈다. 핵심 아이디어는 “모션 스페이스”라는 별도 잠재 공간을 정의하고, 이 공간에 대해 디퓨전 트랜스포머(DiT)를 훈련시켜 오디오를 직접 모션 파라미터(표정 변형 δ, 머리 회전 R, 이동 t)로 변환한다는 점이다. 이를 위해 LivePortrait
댓글 및 학술 토론
Loading comments...
의견 남기기