실시간 스트리밍을 위한 확산 기반 토킹 헤드 생성 프레임워크 REST
초록
REST는 고압축 비디오 잠재 공간을 학습한 뒤, ID‑Context Cache와 비동기 스트리밍 Distillation(ASD) 기법을 결합해 오디오‑드리븐 토킹 헤드 영상을 실시간으로 스트리밍 생성한다. 기존 확산 모델의 느린 추론과 비스트리밍 한계를 극복하고, 정체성 유지와 시간적 일관성을 동시에 확보한다.
상세 분석
본 논문은 확산 기반 토킹 헤드 생성(Talking Head Generation, THG) 분야에서 실시간 스트리밍을 가능하게 하는 새로운 아키텍처인 REST를 제안한다. 핵심 기술은 크게 세 가지로 구분된다. 첫째, Temporal VAE를 이용해 원본 비디오를 32×32×8 픽셀 수준의 초고압축 잠재 공간으로 매핑한다. 이는 기존 확산 모델이 직접 고해상도 프레임을 처리하면서 발생하는 수백 초의 지연을 수십 배 줄여준다. 압축 과정에서 영상의 시공간 구조를 보존하기 위해 3D Conv 기반 인코더·디코더를 사용하고, 압축률과 복원 품질 사이의 트레이드오프를 정량적으로 분석한다.
둘째, ID‑Context Cache 메커니즘은 두 가지 서브 모듈인 ID‑Sink와 Context‑Cache를 결합한다. ID‑Sink는 레퍼런스 이미지의 KV(Key‑Value) 임베딩을 전역 ‘싱크’로 고정함으로써 스트리밍 중에도 인물 정체성을 일관되게 유지한다. Context‑Cache는 현재 청크와 이전 청크의 KV를 연결해 인접 청크 간의 경계 효과를 완화하고, 장기적인 시간적 흐름을 근사한다. 수식 (10)·(11)에서 보듯, K와 V를
댓글 및 학술 토론
Loading comments...
의견 남기기