OmniView 3D와 4D 전방위 뷰 합성 확산 모델
📝 원문 정보
- Title: OmniView: An All-Seeing Diffusion Model for 3D and 4D View Synthesis
- ArXiv ID: 2512.10940
- 발행일: 2025-12-11
- 저자: Xiang Fan, Sharath Girish, Vivek Ramanujan, Chaoyang Wang, Ashkan Mirzaei, Petr Sushko, Aliaksandr Siarohin, Sergey Tulyakov, Ranjay Krishna
📝 초록 (Abstract)
OmniView는 하나 이상의 이미지 또는 비디오를 입력으로 받아, 서로 다른 시점과 시각에서 촬영된 경우에도 4차원(공간·시간) 일관성을 유지하는 영상을 생성한다. 생성된 영상은 새로운 카메라 궤적, 시점, 시간 및 재생 길이에 따라 자유롭게 렌더링할 수 있다. 이 모델은 기존의 다양한 비디오 생성 패러다임을 하나로 통합하여, 새로운 시점 합성(NVS), 텍스트‑투‑비디오(T2V) 카메라 제어, 다중 시점 조건부 생성 등 여러 작업을 동시에 수행한다.💡 논문 핵심 해설 (Deep Analysis)

핵심 기술은 (1) 다중 시점·다중 시간 입력을 하나의 토큰 시퀀스로 인코딩하는 멀티모달 어텐션 구조, (2) 4D 일관성을 유지하기 위해 시공간 토폴로지를 명시적으로 모델링하는 시공간 정규화 기법, (3) 텍스트 프롬프트와 카메라 파라미터를 동시에 조건화하는 교차 모달 컨디셔닝이다. 특히, 시공간 정규화는 기존 3D NeRF 기반 방법이 겪는 “시간 불일치” 문제를 완화하고, 확산 과정에서 발생할 수 있는 블러링을 억제한다.
실험 결과는 세 가지 주요 시나리오—다중 시점 동시 합성, 텍스트 기반 카메라 제어, 그리고 장기 시간 예측—에서 기존 최첨단 방법들을 크게 앞선 성능을 보였다. 정량적 지표인 PSNR/SSIM뿐 아니라, 사용자 연구를 통한 주관적 품질 평가에서도 OmniView가 생성한 영상이 더 자연스…