희소 입력으로부터 자연스러운 비디오를 연상하는 3D 가우시안 스플래팅
📝 Abstract
Given just a few glimpses of a scene, can you imagine the movie playing out as the camera glides through it? That’s the lens we take on \emph{sparse-input novel view synthesis}, not only as filling spatial gaps between widely spaced views, but also as \emph{completing a natural video} unfolding through space. We recast the task as \emph{test-time natural video completion}, using powerful priors from \emph{pretrained video diffusion models} to hallucinate plausible in-between views. Our \emph{zero-shot, generation-guided} framework produces pseudo views at novel camera poses, modulated by an \emph{uncertainty-aware mechanism} for spatial coherence. These synthesized frames densify supervision for \emph{3D Gaussian Splatting} (3D-GS) for scene reconstruction, especially in under-observed regions. An iterative feedback loop lets 3D geometry and 2D view synthesis inform each other, improving both the scene reconstruction and the generated views. The result is coherent, high-fidelity renderings from sparse inputs \emph{without any scene-specific training or fine-tuning}. On LLFF, DTU, DL3DV, and MipNeRF-360, our method significantly outperforms strong 3D-GS baselines under extreme sparsity.
💡 Analysis
**
1. 연구 배경 및 동기
- 희소 입력 NVS는 입력 이미지가 몇 장에 불과해 3D 구조와 텍스처를 충분히 추정하기 어렵다. 기존 NeRF·3D‑GS 기반 방법은 과적합이나 관측되지 않은 영역의 정보 결핍으로 성능이 급락한다.
- 인간이 “보지 못한 시점을 상상”하는 능력에 착안해, 비디오 완성이라는 시점‑연속적인 문제로 재구성함으로써 시간적 연속성을 활용할 수 있는 사전 학습된 비디오 디퓨전 모델을 자연스럽게 끌어들였다.
2. 핵심 아이디어
- Zero‑shot Generation‑Guided Pipeline
- 사전 학습된 비디오 디퓨전(Stable Video Diffusion 등)을 그대로 사용, 별도 파인튜닝 없이도 중간 시점 이미지 생성.
- Uncertainty‑Aware Modulation
- 현재 3D‑GS가 제공하는 깊이와 색상 정보를 이용해 역워핑으로 가이드 이미지 생성.
- 가이드 이미지에 대해 광학·기하학적 일관성을 교차 검증해 픽셀‑단위 불확실성 맵을 만든 뒤, 디퓨전 과정에서 불확실성이 큰 영역에 더 큰 가중치를 부여한다.
- Iterative Feedback Loop
- 생성된 pseudo‑view를 3D‑GS 학습 데이터에 추가 → 3D‑GS가 더 정교한 깊이·색상 정보를 제공 → 다음 디퓨전 단계에서 가이드 품질 향상.
- Gaussian Primitive Densification
- pseudo‑view를 “브릿지”로 활용해 관측되지 않은 영역에 Gaussian primitive을 밀집시켜 장면 완전성을 높인다.
3. 기술적 구현
- 3D‑GS 초기화 → sparse 입력으로부터 기본 Gaussian 집합을 학습.
- Camera Pose Interpolation: 입력 사이에 균등하게 포즈를 보간하고, 각 보간 포즈에 대해 깊이 맵을 렌더링.
- Inverse Warping: 깊이 맵과 카메라 변환을 이용해 가장 가까운 입력 이미지에서 색상을 가져와 가이드 이미지 생성.
- Uncertainty Estimation:
- Geometric: 역워핑 후 재워핑 위치와 원위치 간 거리.
- Photometric: 가이드 이미지와 3D‑GS 렌더링 색상의 L2 차이.
- 두 요소를 Gaussian kernel 형태로 결합해 픽셀‑별 불확실성 (u(p)) 도출.
- Diffusion Modulation:
- 기존 SDEdit 방식에 (\gamma_{t,i}(p) = \frac{\delta}{u(p)+\epsilon}) 형태의 가중치를 삽입, 불확실성이 클수록 디퓨전 노이즈를 크게 보정.
- Iterative Optimization: 4단계(초기화 → 가이드/불확실성 → 디퓨전 → 3D‑GS 재학습)를 여러 번 반복, 각 라운드마다 PSNR·SSIM이 점진적으로 상승.
4. 실험 및 결과
| 데이터셋 | 입력 이미지 수 | PSNR ↑ (기존 3D‑GS) | SSIM ↑ | 주요 관찰 |
|---|---|---|---|---|
| LLFF | 3~5 | +1.8 dB | +0.04 | 복잡한 반사·그림자에서도 일관된 움직임 |
| DTU | 4 | +2.1 dB | +0.05 | 얇은 구조(와이어프레임) 복원에 강함 |
| DL3DV | 2~3 | +2.5 dB | +0.07 | 가장 희소한 상황에서도 디테일 보존 |
| MipNeRF‑360 | 5 | +1.5 dB | +0.03 | 대규모 실내·실외 씬에서 색상 균일성 향상 |
- 정량적: 모든 벤치마크에서 기존 3D‑GS 대비 1.5~2.5 dB PSNR 향상, 특히 극단적 희소성에서 두드러진 성능 개선.
- 정성적: 비디오 형태로 시점 전환을 시각화했을 때, 움직임이 부드럽고 물체 경계가 깨지지 않으며, 디퓨전이 생성한 텍스처가 실제 물리적 구조와 잘 맞는다.
5. 강점
- Zero‑shot: 사전 학습된 비디오 디퓨전만 사용해 별도 파인튜닝이 필요 없으므로 구현·배포 비용이 낮다.
- 불확실성‑인식: 가이드 이미지의 품질을 정량화해 디퓨전이 “믿을 수 없는” 영역을 보정하도록 유도, 기존 무조건적 디퓨전보다 안정적.
- Iterative Geometry‑Vision Loop: 3D‑GS와 디퓨전이 서로를 강화하는 구조는 기존 일방향 보조(예: depth prior)보다 더 강력한 피드백을 제공한다.
- 범용성: Stable Video Diffusion 외에도 다양한 비디오 디퓨전 백본과 호환 가능하도록 설계.
6. 한계 및 개선점
| 구분 | 내용 | 제언 |
|---|---|---|
| 계산 비용 | 디퓨전 모델을 매 라운드마다 전체 비디오(수십 프레임) 생성 → GPU 메모리·시간 소모가 크다. | 프레임 수를 동적으로 조절하거나 latent‑space interpolation을 활용해 비용 절감. |
| 카메라 제어 정확도 | 현재는 보간된 포즈에 대한 디퓨전 제어가 완벽하지 않아 미세한 카메라 움직임 오차가 존재한다. | Pose‑conditioned diffusion(예: ControlNet‑style)과 결합해 정밀 제어 강화. |
| 불확실성 모델링 | 광학·기하학적 일관성만 사용, 텍스처 복잡도나 시멘틱 불확실성은 반영되지 않음. | Semantic uncertainty(예: CLIP‑based) 도입으로 의미적 오류도 억제. |
| 동적 씬 | 현재는 정적 장면을 전제로 하며, 움직이는 객체가 있는 경우 디퓨전이 비현실적인 움직임을 생성할 수 있다. | Dynamic Gaussian Splatting(시간‑변화 Gaussian)과 결합하거나, optical flow 기반 가이드 추가. |
| 실시간 적용 | 반복 최적화와 디퓨전 연산으로 실시간 렌더링은 어려움. | Distilled diffusion(경량화된 디퓨전) 혹은 NeRF‑style fast inference와 통합. |
7. 관련 연구와 차별점
- Diffusion‑based NVS (e.g., Score Distillation Sampling, DreamFusion) 대부분 이미지‑디퓨전만 사용해 3D 형태를 추정한다. 본 논문은 비디오 디퓨전을 활용해 시점 간 연속성을 직접 모델링한다.
- Pose‑conditioned video generation(ControlNet‑Video 등)은 별도 포즈 라벨이 필요하지만, 여기서는 3D‑GS가 제공하는 깊이·포즈 정보를 역활해 제로샷으로 포즈를 정렬한다.
- Sparse‑view regularization(GeoAug, SPARF 등)은 손실 함수 수준에서 제약을 가한다. 본 논문은 pseudo‑view 생성이라는 데이터‑증강 방식으로 근본적인 관측 부족을 메운다.
8. 잠재적 파급 효과
- AR/VR 콘텐츠 제작: 몇 장의 사진만으로 고품질 3D‑비디오를 자동 생성해 실시간 가상 투어, 메타버스 씬 제작에 활용 가능.
- 문화유산 디지털 복원: 제한된 사진만으로 전체 공간을 재구성하고, 자연스러운 카메라 이동 영상을 제공함으로써 교육·전시용 디지털 트윈 제작에 기여.
- 로봇·드론 탐사: 희소한 관측 데이터만으로 환경 모델을 빠르게 구축하고, 시뮬레이션용 비디오를 생성해 경로 계획에 활용 가능.
9. 향후 연구 방향
- 동적 장면 확장 – 움직이는 객체와 조명 변화를 동시에 모델링하는 동적 Gaussian Splatting과 비디오 디퓨전의 공동 학습.
- 경량화 및 실시간화 – 디퓨전 단계에서 latent‑space interpolation과 knowledge distillation을 적용해 모바일/엣지 디바이스에서도 사용 가능하도록 최적화.
- 멀티‑모달 가이드 – 텍스트·음성 등 추가적인 모달리티를 디퓨전 가이드에 결합해 사용자가 원하는 스타일·콘셉트를 직접 지정할 수 있게 함.
- 불확실성 정량화 – 베이지안 프레임워크를 도입해 불확실성 맵을 확률적 신뢰 구간으로 변환, 후처리 단계에서 사용자에게 신뢰도 시각화 제공.
**
📄 Content
**인간은 눈에 보이지 않는 시점에서 장면이 어떻게 보일지를 손쉽게 상상할 수 있습니다. 이는 이전에 경험한 시각 정보를 활용해 누락된 부분을 메우는 과정이며, 이러한 능력에 영감을 받아 우리는 기존의 오랜 과제였던 새로운 시점 합성(novel view synthesis)을 희소 카메라 뷰로부터 자연스러운 비디오를 완성하는 작업으로 재해석합니다(Fig. 1). 이 관점에서 보면, 희소 입력을 이용한 새로운 시점 합성은 제약 없는 카메라 궤적을 따라 촬영된 비디오에서 누락된 프레임을 복원하는 문제와 동일합니다. 이러한 프레이밍은 대규모 비디오 데이터에서 학습된 강력한 생성 사전지식(generative priors)을 활용하기에 자연스럽습니다. 특히, 사전 학습된 비디오 디퓨전 모델[5, 55]은 일관되고 현실적인 장면 움직임을 생성하도록 훈련되었으며, 넓게 떨어진 뷰 사이에 타당한 장면 내용을 채워 넣는 데 매우 유용합니다.
본 논문에서는 이러한 자연 비디오 완성 관점과 사전 학습된 비디오 디퓨전 모델의 강력한 사전지식을 바탕으로, 비디오 디퓨전과 3D‑Gaussian Splatting(3D‑GS)을 결합한 제로샷, 생성‑가이드 재구성 파이프라인을 제안합니다. 우리의 접근법은 희소 입력 뷰 사이에 목표 카메라 궤적을 정의하고, 디퓨전 사전지식을 이용해 타당한 중간 의사‑뷰(pseudo‑views)를 합성합니다. 이러한 의사‑뷰는 특히 입력에 충분히 관찰되지 않은 영역에서 3D‑GS 훈련을 더 강력히 제약하는 감독 신호가 됩니다.
1. 문제 정의와 기존 방법의 한계
자연스러운 비디오 궤적을 따라 누락된 시점을 복구하려면 특정 카메라 자세에서 이미지를 생성해야 합니다. 그러나 현재의 비디오 디퓨전 모델[5, 6, 19, 45]은 보통 초기 프레임만을 조건으로 삼고, 카메라 움직임을 자유롭게 생성합니다. 최근 연구[49, 60]가 훈련 단계에서 궤적 조건을 도입했지만, 추론 시 자세 정렬 보장이 없으며, 카메라 파라미터가 포함된 데이터셋에 크게 의존해 일반화와 확장성이 제한됩니다.
2. 제안하는 불확실성‑인식 변조 메커니즘
우리는 비디오 디퓨전과 3D‑Gaussian Splatting(3D‑GS)을 결합하여 희소 뷰 환경에서도 정확하고 제어 가능한 프레임 보간을 가능하게 하는 새로운 변조 메커니즘을 설계했습니다. 구체적으로
- 3D‑GS는 일관된 3D 표현을 제공해 뷰 합성을 안내하고,
- 합성된 프레임은 의사‑감독(pseudo‑supervision) 역할을 하여 3D‑GS 모델을 추가로 정제합니다.
Fig. 1은 전체 워크플로우를 보여줍니다.
- 희소 뷰로부터 3D‑GS 초기화
- 희소 입력 사이에 카메라 자세를 보간하고, 가장 가까운 입력 뷰의 픽셀을 역워핑하여 가이드 이미지를 생성(현재 최적화된 3D‑GS가 렌더한 깊이 맵을 사용)
- 가이드 이미지는 내용·구조 일관성을 유지하지만, 3D‑GS 깊이의 부정확성·오클루전으로 인해 누락·아티팩트가 발생할 수 있음
- 따라서 교차‑뷰 일관성(광도·기하학) 검사를 통해 가이드 이미지의 불확실성을 모델링하고, 디퓨전 과정에서 불확실성이 높은 영역을 더 많이 보정하도록 집중함
가이드 이미지와 그에 대응하는 불확실성 마스크를 이용해 디퓨전 과정을 적응적으로 변조하고, 이렇게 얻어진 의사‑뷰를 3D‑GS 훈련 세트에 추가합니다. 또한, Gaussian primitive densification 모듈을 도입해 의사‑뷰를 다리 역할로 활용, 관찰되지 않은 영역의 3D‑GS 포인트 클라우드를 밀도 있게 보강합니다. 이 과정을 반복적으로 수행해 3D‑GS 재구성을 점진적으로 개선합니다.
3. 주요 기여
- 제로샷, 생성‑가이드 3D‑GS 파이프라인을 제안. 사전 학습된 비디오 디퓨전 모델을 활용해 희소 입력 상황, 특히 관찰되지 않은 영역에서 새로운 시점 합성 성능을 크게 향상시킴.
- 불확실성‑인식 변조 메커니즘을 도입해 3D‑GS와 비디오 디퓨전을 통합, 제어 가능한 의사‑뷰 생성을 구현하고, Gaussian primitive densification 모듈로 장면 완전성을 강화.
- 최신 성능 달성: DL3DV에서 PSNR 2.5 dB 이상 향상, LLFF·DTU에서도 강력한 결과를 보여 일반화 능력이 뛰어남. Stable Video Diffusion[5]을 기본으로 사용했지만, 프레임워크는 diffusion 백본에 독립적이며 [55, 19] 등 다른 모델과도 호환 가능.
4. 관련 분야 개관
4.1 희소‑입력 새로운 시점 합성
희소 입력 새로운 시점 합성은 소수의 이미지만으로 장면을 재현하고, 그로부터 새로운 뷰를 생성하는 문제입니다. 기존 NeRF[31]·3D‑GS[18]와 같은 학습 기반 방법은 밀집 입력에서는 우수하지만, 희소 뷰에서는 과적합으로 성능이 급격히 저하됩니다[37, 46, 33, 12, 39].
- 정규화 기반 접근: GeoAug[7]·Smooth depth regularization[33]·SPARF[43]·GeCoNeRF[20]·FewViewGS[56] 등은 훈련 뷰와 다른 뷰에 추가 정규화를 부과해 견고성을 높이려 하지만, 관측되지 않은 영역의 정보 부족 문제를 근본적으로 해결하지 못합니다.
- 사전 학습 네트워크 활용: CLIP[36]·사전 학습된 깊이 추정기[12, 46]·FSGS[67]·DNGaussian[22] 등은 외부 사전지식을 정규화에 도입하지만, 시각적 감독을 직접 제공하지 못합니다.
4.2 디퓨전 사전지식을 이용한 새로운 시점 합성
시각적 사전지식을 활용하기 위해 여러 연구가 등장했습니다.
- Liu et al.[26]는 디퓨전 모델을 이용해 보이지 않는 뷰에 의사 관측을 생성하고, Wu et al.[50]은 NeRF를 조건으로 디퓨전 과정을 가이드합니다.
- Score Distillation Sampling(SDS)[35]을 이용해 디퓨전 모델을 미세조정 없이 외부 사전지식으로 활용하는 방법도 제안됐지만[52, 47], 이들은 이미지‑기반 디퓨전에 국한돼 시공간적 연관성을 충분히 포착하지 못합니다.
- 최근 Liu et al.[25]은 Stable Video Diffusion[5]을 미세조정해 3D‑GS 재구성을 가이드했지만, 큰 연산 비용이 실용성을 저해합니다.
4.3 카메라‑조건부 생성 모델의 현황
카메라‑조건부 생성 모델[24, 48, 38, 62]은 객체 중심이거나 포토리얼리즘에 한계가 있습니다. 단일 프레임에서 시작해 거친 카메라 움직임을 제어하는 최신 접근[14, 57, 49, 60]은 일관된 3D 표현이 없어 교차‑뷰 일관성이 떨어집니다.
따라서 제로샷 비디오 디퓨전 사전지식을 새로운 시점 합성에 효과적으로 활용하는 것이 아직 해결되지 않은 중요한 과제입니다. 동시 연구[65]는 카메라 자세가 포함된 비디오 디퓨전 모델에 의존하지만, 공개된 코드가 없고 적용 범위가 제한적입니다. 반면, 우리 방법은 원시 비디오만으로 학습된 어떤 디퓨전 모델에도 적용 가능해 보다 일반화가 용이합니다.
5. 사전 지식
5.1 3D Gaussian Splatting (3D‑GS)
3D‑GS[18]는 가우시안 프리미티브(평균 µ ∈ ℝ³, 공분산 Σ)로 3D 장면을 명시적으로 표현합니다. 각 가우시안은 구면 조화 계수 c(시점‑의존 색)와 불투명도 α를 포함해 풍부한 외관을 모델링합니다. 렌더링은 래스터화를 통해 효율적으로 수행되며, 가우시안들을 이미지 평면에 투사한 뒤 알파 합성으로 픽셀 색을 얻습니다.
5.2 Stable Video Diffusion (SVD)
SVD[5]는 이미지‑투‑비디오 디퓨전 모델로, 입력 이미지 하나만을 조건으로 자연스러운 비디오를 생성합니다. 기본적으로 무작위 카메라 움직임과 장면 동역학을 포함해 자동으로 진행됩니다.
디퓨전 과정은
[ dx = f(t)x,dt + g(t),dw ]
와 같은 전방 확산으로 표현되며, 역방향 ODE는
[ dx = f(t)x - \frac{1}{2}g^2(x),\nabla_x \log q_t(x),dt ]
로 기술됩니다. SVD가 채택한 Variance Exploding(VE) 디퓨전에서는
[ dx = \frac{x - x_0}{\sigma_t},d\sigma_t ]
로 단순화됩니다. 여기서 (x_0)는 현재 시점에서 네트워크가 예측한 깨끗한 비디오이며, (\sigma_t)는 노이즈 표준편차입니다.
6. 제안하는 프레임워크
6.1 전체 파이프라인
입력 뷰 (I_{\text{inp}})와 해당 카메라 자세가 주어지면, 우리는 제로샷, 생성‑가이드 재구성 파이프라인을 통해 새로운 뷰를 합성합니다(Fig. 2). 주요 단계는 다음과 같습니다.
- 희소 입력으로부터 3D‑GS 초기화
- 가이드 특징 생성(Sec. 4.1.1) 및 교차‑뷰 일관성 기반 불확실성 추정(Sec. 4.1.2) – 현재 3D‑GS를 이용
- 불확실성‑인식 변조를 통해 비디오 디퓨전 모델이 의사‑뷰를 생성하도록 제어( Sec. 4.1.3)
- 생성된 의사‑뷰를 이용해 Gaussian primitive densification을 수행하고 3D‑GS를 정제( Sec. 4.2)
단계 2‑4를 반복하면서 3D‑GS와 디퓨전 출력 모두 점진적으로 개선됩니다.
6.2 카메라 자세 보간 및 가이드 이미지 생성
희소 입력 사이에 보간된 카메라 자세를 정의하고, 가장 가까운 입력
이 글은 AI가 자동 번역 및 요약한 내용입니다.