OmniView 3D와 4D 전방위 뷰 합성 확산 모델

읽는 시간: 2 분
...

📝 원문 정보

  • Title: OmniView: An All-Seeing Diffusion Model for 3D and 4D View Synthesis
  • ArXiv ID: 2512.10940
  • 발행일: 2025-12-11
  • 저자: Xiang Fan, Sharath Girish, Vivek Ramanujan, Chaoyang Wang, Ashkan Mirzaei, Petr Sushko, Aliaksandr Siarohin, Sergey Tulyakov, Ranjay Krishna

📝 초록 (Abstract)

OmniView는 하나 이상의 이미지 또는 비디오를 입력으로 받아, 서로 다른 시점과 시각에서 촬영된 경우에도 4차원(공간·시간) 일관성을 유지하는 영상을 생성한다. 생성된 영상은 새로운 카메라 궤적, 시점, 시간 및 재생 길이에 따라 자유롭게 렌더링할 수 있다. 이 모델은 기존의 다양한 비디오 생성 패러다임을 하나로 통합하여, 새로운 시점 합성(NVS), 텍스트‑투‑비디오(T2V) 카메라 제어, 다중 시점 조건부 생성 등 여러 작업을 동시에 수행한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
OmniView 논문은 3차원·4차원 영상 합성 분야에서 가장 포괄적인 프레임워크를 제시한다는 점에서 큰 의미를 가진다. 기존 연구들은 주로 단일 시점에서의 비디오 생성(NVS)이나 텍스트 기반 비디오 합성(T2V) 등 특정 작업에 초점을 맞추어 왔으며, 시점·시간·길이 제어를 동시에 다루는 모델은 드물었다. OmniView는 확산 모델(Diffusion Model)을 기반으로 하면서, 입력으로 제공되는 하나 이상의 이미지·비디오를 “조건”으로 활용한다. 이때 조건은 공간적(다중 카메라 시점)과 시간적(다른 프레임) 차원을 모두 포함할 수 있다. 모델은 이러한 복합 조건을 통합해 4D 일관성을 보장하는 latent space를 학습하고, 이를 통해 임의의 카메라 경로와 시간 흐름에 따라 연속적인 프레임을 생성한다.

핵심 기술은 (1) 다중 시점·다중 시간 입력을 하나의 토큰 시퀀스로 인코딩하는 멀티모달 어텐션 구조, (2) 4D 일관성을 유지하기 위해 시공간 토폴로지를 명시적으로 모델링하는 시공간 정규화 기법, (3) 텍스트 프롬프트와 카메라 파라미터를 동시에 조건화하는 교차 모달 컨디셔닝이다. 특히, 시공간 정규화는 기존 3D NeRF 기반 방법이 겪는 “시간 불일치” 문제를 완화하고, 확산 과정에서 발생할 수 있는 블러링을 억제한다.

실험 결과는 세 가지 주요 시나리오—다중 시점 동시 합성, 텍스트 기반 카메라 제어, 그리고 장기 시간 예측—에서 기존 최첨단 방법들을 크게 앞선 성능을 보였다. 정량적 지표인 PSNR/SSIM뿐 아니라, 사용자 연구를 통한 주관적 품질 평가에서도 OmniView가 생성한 영상이 더 자연스…

📄 논문 본문 발췌 (Translation)

...(본문 내용이 길어 생략되었습니다. 사이트에서 전문을 확인해 주세요.)

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키