Feat2GS 시각기반 모델 3D 인식 탐색
초록
Feat2GS는 사전 학습된 시각 기반 모델(VFM)의 3D 인식을 평가하기 위해, 이미지 특징을 3D 가우시안 속성으로 변환하고 이를 이용해 새로운 시점 합성을 수행한다. 3D 기하와 텍스처를 별도로 읽어내어 각각의 인식 능력을 정량화하고, 3D 라벨 없이도 다양한 실세계 데이터셋에서 광범위한 실험을 진행한다.
상세 분석
Feat2GS는 기존 2.5D 추정이나 두 뷰 간 희소 매칭과 달리, 다중 뷰 이미지만을 이용해 밀집형 3D 프로빙을 가능하게 한다. 핵심 아이디어는 VFM에서 추출한 픽셀‑레벨 특징을 얕은 MLP(readout layer)로 매핑하여 3D Gaussian Splatting(3DGS)의 위치 x, 불투명도 α, 공분산 Σ, 그리고 구면조화(SH) 텍스처 c를 직접 회귀하는 것이다. 이때 파라미터 수를 최소화해 readout이 단순 정보 전달 역할만 수행하도록 설계했으며, ReLU 기반 2‑layer MLP(256 유닛)로 과적합을 방지한다.
3DGS 파라미터를 기하와 텍스처로 구분함으로써 세 가지 probing 모드(G‑Geometry, T‑Texture, A‑All)를 정의한다. Geometry 모드에서는 VFM 특징으로 위치·불투명도·공분산을 예측하고 텍스처는 자유롭게 최적화한다; Texture 모드에서는 반대로 텍스처를 예측하고 기하는 자유 최적화한다; All 모드에서는 모든 파라미터를 특징으로부터 직접 회귀한다. 이러한 설계는 VFM이 실제로 어느 정도의 기하적 구조와 색상 정보를 내재하고 있는지를 개별적으로 측정할 수 있게 한다.
카메라 포즈는 사전 학습된 무제한 스테레오 재구성기인 DUSt3R을 이용해 초기화하고, 이후 포토메트릭 손실을 통해 공동 최적화한다. 이는 일반적인 Structure‑from‑Motion이 요구하는 충분한 오버랩이 없는, 소수의 캐주얼 이미지에서도 적용 가능하게 만든다. 또한, 초기 단계에서 point‑cloud 회귀 손실을 사용해 warm‑start 함으로써 로컬 미니멈에 빠지는 문제를 완화한다.
평가에서는 PSNR, SSIM, LPIPS와 같은 2D 이미지 품질 지표를 사용했으며, 이는 DTU와 같은 데이터셋에서 3D 재구성 정확도(accuracy, completeness, distance)와 높은 상관관계를 보였다. 10개의 대표적인 VFM(DINOv2, MAE, CLIP, SAM 등)을 동일 아키텍처와 채널 차원(PCA 정규화)으로 비교했으며, 7개의 다중 뷰 데이터셋(LLFF, DTU, DL3D‑V, MipNeRF360 등)에서 광범위한 실험을 수행했다. 실험 결과, self‑supervised ViT 기반 모델이 텍스처와 기하 모두에서 우수한 성능을 보였으며, 텍스처‑전용 사전 학습(SAM, RADIO 등)은 기하 추정에는 오히려 부정적 영향을 미치는 것이 확인되었다.
마지막으로, Feat2GS에서 도출된 인사이트를 바탕으로 세 가지 변형 모델을 제안했으며, 이는 기존 최첨단 InstantSplat을 모든 메트릭에서 능가한다. 특히, 서로 다른 VFM의 특징을 단순히 concat하는 방식이 가장 강력한 베이스라인으로 작동한다는 점이 흥미롭다. 전체적으로 Feat2GS는 3D 라벨 없이도 VFM의 3D 인식을 정량화할 수 있는 통합 프레임워크를 제공하고, 동시에 NVS 분야에서도 실용적인 베이스라인을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기