보이지 않는 영역을 넘어서: 프록시 동적 그래프 기반 디오클루전 인식 영상 편집
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 단일 이미지에서 사용자가 직접 지정한 파트 움직임과 최종 프레임의 디오클루전 영역에 대한 외관을 동시에 제어할 수 있는 무학습 이미지‑투‑비디오 파이프라인을 제안한다. 경량의 사용자 편집 가능한 Proxy Dynamic Graph(PDG)를 통해 파트‑레벨 모션을 명시하고, 사전 학습된 영상 디퓨전 모델을 “모션‑가이드 셰이더”로 활용해 디오클루전 영역만을 인페인팅한다. 최종 프레임을 사용자가 직접 편집하면, 라텐트 공간에서의 특성 교체를 통해 일관된 영상으로 재생성한다.
상세 분석
이 연구는 기존 이미지‑투‑비디오 생성기가 “무작위” 혹은 “텍스트·화살표” 수준의 제어만 제공하는 한계를 극복하고자 한다. 핵심 아이디어는 모션 명시와 외관 합성을 완전히 분리하는 데 있다.
-
Proxy Dynamic Graph(PDG)
- PDG는 유향 비순환 그래프이며, 노드는 물체 혹은 물체 파트를 3D 포인트 클라우드 형태로 표현한다.
- 엣지는 부모‑자식 관계와 변환 파라미터(중심, 축, 이동·회전 범위)를 담아, 전방 운동학을 통해 자식 노드가 부모 변환을 자동으로 상속한다.
- 그래프 구축은 완전 자동이 아니라 사용자 보조 방식이다. 입력 이미지에 대해 MoGe(깊이·카메라 파라미터 추정)와 SAM2(세그멘테이션)를 활용하고, 사용자는 2D 바운딩 박스로 파트를 지정한다. 이후 파트별 깊이와 카메라 정보를 이용해 3D 포인트 클라우드를 추출하고, 파트 간 관계와 움직임을 정의한다.
-
모션 흐름 생성
- 사용자가 PDG를 재포즈하면, 각 노드의 변환이 적용된 새로운 포인트 클라우드와 디오클루전 마스크 M(t) 를 얻는다.
- 포인트 클라우드와 카메라 파라미터를 이용해 밀집 optical flow 를 계산하고, 이를 DaS(Diffusion‑as‑Shader) 영상 디퓨전 모델에 입력한다. DaS는 입력 이미지와 추출된 트래킹 비디오(밀집 흐름 기반)를 라텐트 디퓨전 과정에 조건으로 넣어, 움직임을 따르는 현실적인 프레임을 생성한다.
-
디오클루전 영역 편집
- 생성된 영상의 마지막 프레임에서 사용자는 포토샵·그리기 툴 등으로 디오클루전 영역을 직접 수정한다.
- 수정된 프레임을 라텐트 인코더 E 로 변환해 라텐트 피처 F_edit 를 얻고, 기존 영상 라텐트 F_tr 에서 해당 시점(마지막 프레임)의 피처 채널을 교체한다.
- 교체된 라텐트 시퀀스를 다시 DaS 디퓨전 파이프라인에 투입해 전방 패스를 재실행한다. 이 과정은 모델 파라미터를 업데이트하지 않으며, 라텐트 공간에서의 교체이기 때문에 픽셀‑레벨 정합 오류와 그림자·반사 같은 2차 효과가 자연스럽게 재생성된다.
-
학습‑프리 특성
- 전체 파이프라인은 사전 학습된 이미지‑투‑비디오 디퓨전 모델(예: DaS)만을 사용하고, 추가 파인‑튜닝이나 새로운 데이터셋이 필요 없다. 따라서 즉시 사용 가능하고, 다양한 도메인(가구, 차량, 변형 가능한 물체 등)에 적용 가능하다.
- 다만, 생성 가능한 영상은 모델이 이미 학습한 라텐트 매니폴드 안에 제한되므로, 극단적인 시점 변화나 비현실적인 파트 구성이 요구될 경우 품질이 저하될 수 있다.
-
실험 및 평가
- 기존 텍스트·포인트·박스 기반 영상 편집 기법, 순수 흐름 워핑, 그리고 파인‑튜닝 기반 편집 모델과 비교했을 때, 포즈·구조 충실도, 런‑투‑런 변동성, 정체성 보존 측면에서 우수함을 보였다.
- 사용자 설문 조사에서도 제시된 PDG 기반 인터페이스가 직관적이며, 디오클루전 영역을 직접 지정·편집할 수 있는 점이 큰 장점으로 평가되었다.
이 논문은 **‘프록시 그래프 + 라텐트 디퓨전’**이라는 새로운 결합 방식을 제시함으로써, 정교한 파트 움직임 제어와 디오클루전 영역 외관 제어를 동시에 달성한다는 점에서 영상 생성·편집 분야에 중요한 전진을 이룬다.
댓글 및 학술 토론
Loading comments...
의견 남기기