다중 시점 기반 주제 일관 비디오 생성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 여러 각도에서 촬영된 참조 이미지를 이용해 3D 수준의 주제 일관성을 유지하는 비디오를 생성하는 MV‑S2V 과제를 정의하고, 합성 데이터 파이프라인과 실제 촬영 데이터로 학습을 보강한다. 또한 교차 주제와 교차 시점을 명확히 구분하는 TS‑RoPE 조건부 메커니즘을 제안해 기존 S2V 한계를 뛰어넘는 고품질 비디오를 구현한다.

상세 분석

MV‑S2V는 기존 S2V가 단일 시점 이미지에 의존해 “S2I + I2V” 형태로 전락하는 문제를 근본적으로 해결한다. 핵심 아이디어는 다중 시점 참조 이미지를 입력으로 받아, 영상 전체에 걸쳐 3차원적인 주제 일관성을 유지하도록 조건부 디퓨전 모델을 학습시키는 것이다. 이를 위해 저자들은 두 가지 데이터 소스를 결합한다. 첫 번째는 최신 이미지‑투‑비디오(I2V) 모델을 활용해 카메라 궤적과 프롬프트를 정밀 제어함으로써, 객체 중심(OC)과 인간‑물체 상호작용(HOI) 두 시나리오에 맞는 대규모 합성 비디오와 다중 시점 레퍼런스를 자동 생성한다. 두 번째는 실제 촬영을 통해 얻은 소규모 데이터셋으로, 합성 데이터의 “복사‑붙여넣기” 현상을 완화하고 포토리얼리즘을 보강한다. 데이터 품질은 Gemini 2.5 기반 자동 필터링과 Grounded SAM을 이용한 정교한 객체 분할로 확보한다.
조건부 메커니즘에서는 기존의 단순 컨캣(concatenation) 방식이 교차 주제와 교차 시점을 구분하지 못한다는 점을 지적하고, Rotary Position Encoding(RoPE)을 시간축으로 시프트(Temporally Shifted RoPE, TS‑RoPE)하여 각 주제와 시점에 고유한 위치 임베딩을 부여한다. 이렇게 하면 동일 주제의 서로 다른 시점이 서로 구분되면서도, 서로 다른 주제는 완전히 독립적인 토큰으로 처리된다. 모델은 사전 학습된 텍스트‑투‑비디오 기반인 WAN 2.1 위에 3D VAE와 DiT 디퓨전 트랜스포머를 결합해, 텍스트, 이미지 레퍼런스, 시간 정보를 모두 교차‑어텐션으로 융합한다.
평가에서는 다중 시점 일관성을 정량화하기 위해 3D 재구성 오류, 시점 간 시멘틱 유사도, 그리고 기존 S2V와의 주관적 품질 비교를 수행한다. 실험 결과, MV‑S2V는 합성·실제 데이터 모두에서 기존 단일 시점 S2V 대비 주제 일관성 점수가 평균 12% 이상 상승했으며, 시각적으로도 카메라 궤적에 따라 자연스러운 회전·변형을 보여준다. 이처럼 MV‑S2V는 주제‑구동 비디오 생성의 새로운 패러다임을 제시한다.

다중 시점 기반 주제 일관 비디오 생성

초록

상세 분석

댓글 및 학술 토론

의견 남기기