SparseGS‑W: 극소수 사진으로 구현하는 야외 3D 가우시안 스플래팅

SparseGS‑W: 극소수 사진으로 구현하는 야외 3D 가우시안 스플래팅
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SparseGS‑W는 단 5장의 야외 사진만으로도 3D 가우시안 스플래팅 기반 장면을 복원하고, 생성형 디퓨전 모델을 활용해 뷰 일관성과 오클루전 제거를 동시에 달성한다. 기하학적 사전과 제약된 디퓨전 사전, 그리고 AdaIN 기반 외관 제어를 결합해 기존 방법보다 높은 품질을 제공한다.

상세 분석

본 논문은 기존 3D Gaussian Splatting(3DGS)과 NeRF 기반 방법들이 수천 장의 이미지에 의존해 고품질 뷰 합성을 수행하는 한계를 극복하고자 한다. 핵심 아이디어는 두 종류의 사전(prior)을 결합하는 것이다. 첫 번째는 DUSt3R과 같은 최신 멀티뷰 스테레오 모델을 이용해 밀집 초기 포인트 클라우드와 카메라 파라미터를 얻는 기하학적 사전이다. 이는 sparse view 상황에서도 충분한 3D 구조 정보를 제공한다. 두 번째는 Stable Diffusion 기반의 제약된 디퓨전 모델(constrained diffusion prior)이다. 이 모델은 기존 Diffusion 모델을 학습 이미지에 맞게 fine‑tune하고, DDIM Inversion을 통해 렌더링된 저품질 뷰를 노이즈 공간으로 변환한다. 이후 두 개의 역전파 경로를 동시에 진행하는데, 하나는 원본 이미지를 재구성하고(재구성 경로), 다른 하나는 제약된 디퓨전 모델을 이용해 고품질 이미지로 향상한다(향상 경로).

향상 경로에서 구조 보존을 위해 self‑attention의 Query와 Key를 재구성 경로에서 가져와 injection한다. 즉, Q_e와 K_e를 Q_r, K_r로 교체함으로써 고해상도 이미지가 원본의 기하학적 구조를 유지하도록 유도한다. 이 과정에서 AdaIN을 적용해 사용자 제공 레퍼런스 이미지의 색조·조명 특성을 그대로 전달한다. 결과적으로, pseudo ground‑truth 이미지가 생성되고 이는 3D 가우시안 파라미터를 업데이트하는 손실(L1+SSIM)으로 사용된다.

오클루전 처리(Occlusion Handling) 모듈은 EVF‑SAM 세그멘테이션 모델을 활용해 사용자 텍스트 프롬프트 기반 마스크를 생성한다. 마스크 영역은 디퓨전 과정에서 별도의 latent을 유지하면서, masked latent과 원본 latent을 가중합한 뒤 동일한 attention injection 방식을 적용한다. 이렇게 하면 일시적인 물체(사람, 차량 등)를 고품질 인페인팅으로 대체하면서도 3D 일관성을 유지한다.

학습 전략인 Progressive Sampling and Training Strategy(PSTS)는 카메라 포즈를 SLERP와 작은 잡음 추가로 보강해 가상 뷰를 다량 생성한다. 이러한 가상 뷰는 위의 CNVE와 OH 모듈을 거쳐 고품질 pseudo GT가 되고, 3D 가우시안 파라미터를 점진적으로 정제한다.

실험에서는 PhotoTourism과 Tanks & Temples 데이터셋에서 5~10장의 이미지만 사용했음에도 불구하고, PSNR/SSIM 등 전통적인 full‑reference 지표와 FID, ClipIQA, MUSIQ 같은 no‑reference 지표 모두에서 기존 최첨단 방법(GS‑W, WildGaussians 등)을 크게 앞선 성능을 보였다. 특히, transient occlusion이 많은 관광지 사진에서도 깔끔한 배경 복원과 일관된 조명 재현이 가능했다.

이 논문의 주요 기여는 (1) 극소수 이미지로도 3DGS 기반 NVS를 가능하게 한 최초의 프레임워크, (2) 제약된 디퓨전 사전을 활용한 plug‑and‑play 뷰 향상 및 오클루전 제거 모듈, (3) AdaIN 기반 외관 제어와 progressive sampling을 결합한 효율적인 학습 파이프라인이다. 이러한 접근은 실시간 AR/VR 콘텐츠 제작, 문화유산 디지털 보존 등 실제 현장 적용 가능성을 크게 확대한다.


댓글 및 학술 토론

Loading comments...

의견 남기기