대규모 단일 카메라 3D 재구성을 위한 깊이·포즈·지역 NeRF 공동 학습
초록
본 논문은 메트릭 스케일 깊이, 드리프트 없는 포즈, 그리고 도시 규모의 장면을 커버할 수 있는 로컬 해시‑그리드 NeRF를 하나의 미분 가능 파이프라인에서 동시에 학습한다. Vision‑Transformer 기반 깊이 예측, 피처 기반 번들 어드저스트먼트, 그리고 뷰 오버랩이 낮아질 때 자동으로 새로운 로컬 NeRF를 생성·고정하는 계층적 구조를 도입해, 기존 방법보다 10배 이상 낮은 절대 궤적 오차와 경쟁력 있는 렌더링 품질을 달성한다.
상세 분석
이 연구는 단일 RGB 비디오만으로 메트릭 스케일 3‑D 재구성을 가능하게 하는 세 가지 핵심 기술을 통합한다. 첫째, Vision‑Transformer(ViT) 백본에 기반한 깊이 네트워크는 객체 크기 사전(standing‑person)과 Charbonnier 손실을 이용해 절대 깊이 스케일을 정규화한다. 기존의 자기지도 깊이‑포즈 학습이 갖는 스케일 불확정성을 메트릭 스케일 슈퍼비전으로 해결함으로써, 장거리 시퀀스에서도 ‘유령’ 기하학이 발생하지 않는다. 둘째, 피처 기반 번들 어드저스트먼트(FBA)는 두 프레임 사이의 다중 스케일 피라미드 특징 맵과 학습된 가중치 맵을 이용해 잔차를 정의하고, Levenberg‑Marquardt 최적화를 통해 SE(3) 포즈와 카메라 내부 파라미터를 직접 미분 가능하게 업데이트한다. 이 접근법은 전통적인 키포인트 매칭에 비해 텍스처가 부족한 영역에서도 강인하며, 하이브리드 손실(광류와 RAFT 기반 광류 차이)으로 시간적 일관성을 강화한다. 셋째, 장면 표현은 해시‑그리드 기반 작은 MLP(Instant‑NGP 스타일)를 로컬 셀 단위로 동적으로 할당한다. 카메라가 현재 셀의 수축된 단위 큐브를 벗어나면 해당 셀을 ‘프리즈’하고 새로운 셀을 생성하는 방식은 메모리 사용을 6~7 GB 이하로 제한하면서 수백 미터에 달하는 경로를 커버한다. 프리즈된 셀은 L2 색상 프라이어를 제공해 인접 셀 간 경계에서 색상 불연속을 방지한다. 전체 파이프라인은 깊이 워밍업 → FBA 포즈 정제 → 로컬 NeRF 미세조정 순으로 진행되는 윈도우 기반 스케줄을 사용해, 각 모듈이 서로의 출력에 의해 지속적으로 재학습되도록 설계되었다. 실험에서는 Tanks & Temples 8개 시퀀스에서 절대 궤적 오차(ATE)를 0.001–0.021 m 수준으로 낮추었으며, 이는 BARF 대비 최대 18배, NoPe‑NeRF 대비 2배 향상된 수치이다. 또한 Static Hikes 데이터셋에서 PSNR 20.19 dB, SSIM 0.704, LPIPS 0.62를 기록해 기존 로컬 NeRF 방법보다 뚜렷한 시각적 품질을 보였다. Ablation 실험은 ViT 백본 교체 시 ATE가 3배 증가하고, 픽셀‑레벨 포즈 최적화로 RPE‑R이 40 % 악화되는 등 각 구성 요소의 중요성을 입증한다. 제한점으로는 얇은 구조물(전선 등) 재현이 해시 해상도에 의존하고, 동적 객체가 존재할 경우 유령 아티팩트가 남으며, 현재는 데스크톱 GPU(A100)에서만 실시간 추론이 가능하다는 점을 꼽는다. 향후 연구에서는 Depth Anything V2와 같은 대규모 깊이 사전 모델 통합, 동적 씬을 위한 트랜지언트 슬롯 NeRF, 그리고 메쉬 변환·IMU·GPS 등 교차 모달 정규화를 통해 모바일 실시간 적용을 목표로 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기