실시간 제어 가능한 모션‑스페이스 디퓨전 기반 토킹 헤드 합성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Ditto는 오프‑더‑쉘프 모션 추출기와 조건부 디퓨전 트랜스포머를 결합해, 얼굴 움직임을 별도의 모션 공간에 표현한다. 정체성‑무관한 모션 표현을 학습하고, 감정·눈 상태·키포인트 등 다양한 조건을 이용해 미세 제어가 가능하도록 설계했으며, 스트리밍 파이프라인 최적화로 단일 GPU에서 실시간(30 fps) 추론과 낮은 첫 프레임 지연을 달성한다.

상세 분석

Dit토 논문은 기존 디퓨전 기반 토킹 헤드 모델이 안고 있던 두 가지 근본적인 한계—제어성 부족과 추론 지연—를 동시에 해결하려는 시도로 눈길을 끈다. 핵심 아이디어는 “모션 스페이스”라는 별도 잠재 공간을 정의하고, 이 공간에 대해 디퓨전 트랜스포머(DiT)를 훈련시켜 오디오를 직접 모션 파라미터(표정 변형 δ, 머리 회전 R, 이동 t)로 변환한다는 점이다. 이를 위해 LivePortrait

실시간 제어 가능한 모션‑스페이스 디퓨전 기반 토킹 헤드 합성

초록

상세 분석

댓글 및 학술 토론

의견 남기기