외부 표현을 활용한 고품질 새로운 시점 합성
초록
본 논문은 대규모 2D diffusion 모델에 외부 시각 표현을 조건으로 주입해, 기하학적 일관성과 인페인팅 품질을 동시에 향상시키는 새로운 뷰 합성 프레임워크 ReNoV를 제안한다. 외부 표현의 공간‑주의(attention)에서 나타나는 자연스러운 대응성을 분석하고, 이를 3D 공간에 투영·재투영하는 Projection Module을 설계하였다. 실험 결과 RealEstate10K와 DTU 벤치마크에서 기존 diffusion 기반 방법들을 크게 앞섰으며, 포즈가 알려지지 않은 희소 이미지 집합에서도 견고하게 동작한다.
상세 분석
본 연구는 먼저 최신 시각 기초 모델(VGGT, DepthAnything‑V3, DINOv2 등)의 내부 특징이 다중 뷰 간 기하학적 대응을 얼마나 잘 포착하는지를 정량·정성적으로 분석한다. 층별 PCK(Percentage of Correct Keypoints)와 LDS(Local‑vs‑Distant Similarity) 지표를 통해 깊은 층일수록 기하학적 일관성이 강화되고, 특히 VGGT와 DepthAnything‑V3의 깊은 레이어가 반복 구조에서도 정확히 매칭되는 것을 확인했다. 반면 DINOv2는 의미적 유사성은 높지만 기하학적 구분력이 부족해 동일 패턴이 반복되는 장면에서 오류가 발생한다.
이러한 분석을 바탕으로 논문은 “외부 표현을 조건으로 하는 diffusion 기반 뷰 합성”이라는 핵심 아이디어를 도출한다. 기존 diffusion 기반 NVS는 목표 카메라 포즈를 임베딩으로 제공하지만, 포즈 분포가 제한적이며, 참조 이미지에 보이지 않는 영역을 복원하거나 인페인팅하는 능력이 약했다. 저자는 이를 해결하기 위해 두 단계의 Projection Module을 설계하였다. 첫 번째 모듈은 외부 표현을 각 참조 이미지의 깊이·포인트 맵과 카메라 파라미터를 이용해 3D 포인트 클라우드로 역투영하고, 목표 뷰의 카메라에 재투영한다. 재투영 과정에서 발생하는 빈 공간은 학습 가능한 마스크 토큰으로 채워 인페인팅 정보를 제공한다. 두 번째 모듈은 이렇게 변환된 특징을 diffusion U‑Net의 cross‑attention에 직접 주입함으로써, 재구성 단계에서는 정확한 기하학적 매칭을, 인페인팅 단계에서는 의미적으로 일관된 컨텍스트를 동시에 활용한다.
실험에서는 RealEstate10K에서 PSNR·SSIM·LPIPS 모두 기존 최첨단 모델(CAT3D, ViewCrafter 등)을 크게 앞섰으며, 특히 1~3개의 참조 이미지만으로도 높은 품질을 유지한다. DTU zero‑shot 평가에서도 포즈가 전혀 주어지지 않은 상황에서 VGGT 기반 포즈·깊이 추정과 결합된 ReNoV가 경쟁 모델보다 안정적인 3D 일관성을 보여준다. Ablation study는 (1) 외부 표현 없이 순수 diffusion, (2) 단순 2D 특징 융합, (3) 제안된 Projection Module을 각각 제거했을 때 성능 급락을 확인, 제안 방법의 필요성을 입증한다.
요약하면, 본 논문은 (i) 외부 시각 표현이 내재하는 기하학·의미적 대응성을 정량화하고, (ii) 이를 3D 투영‑재투영 파이프라인으로 diffusion 모델에 효과적으로 전달하는 Projection Conditioning 기법을 제안하며, (iii) 이를 통해 희소·무포즈 이미지 집합에서도 고품질, 기하학적으로 일관된 새로운 시점을 생성한다는 점에서 기존 NVS 연구에 중요한 전진을 이룬다.
댓글 및 학술 토론
Loading comments...
의견 남기기