실시간 밀도 피드포워드 장면 재구성을 위한 VGGT SLAM 2.0
초록
VGGT‑SLAM 2.0은 기존 VGGT‑SLAM의 15 DoF 정합으로 인한 드리프트와 평면 퇴화를 제거하고, 새로운 팩터 그래프와 VGGT 내부 어텐션 레이어를 활용한 이미지 검색 검증을 도입해 루프 클로저를 강화한다. 또한 오픈‑셋 객체 탐지와 Jetson Thor 기반 실시간 매핑을 시연하며, TUM 데이터셋에서 23 % 낮은 포즈 오류를 기록한다.
상세 분석
본 논문은 VGGT‑SLAM 2.0이 기존 시스템의 핵심 약점을 어떻게 구조적으로 해결했는지를 상세히 분석한다. 첫 번째로, 15 DoF 동차 변환을 SL(4) 위에서 최적화하던 방식을 포기하고, 겹치는 프레임에 대해 동일한 위치·회전·캘리브레이션을 강제함으로써 고차원 드리프트를 근본적으로 억제한다. 이때 스케일만을 별도로 추정하도록 설계했으며, 이는 VGGT가 제공하는 깊이와 캘리브레이션 정보를 이용해 대응점 간 거리 비율의 중앙값으로 계산한다. 두 번째로, 팩터 그래프를 재구성하여 모든 키프레임을 노드로 두고, 서브맵 내부는 SE(3) 형태의 intra edge, 서브맵 간 겹치는 프레임은 캘리브레이션·스케일만을 포함하는 inter edge로 연결한다. 이렇게 하면 서브맵 간 정합 오류가 전역 최적화 단계에서 직접 보정된다. 세 번째 기여는 VGGT의 어텐션 레이어 중 22번째 레이어가 이미지 간 대응을 명확히 드러내는 ‘스포트라이트’ 패턴을 보여준다는 실증적 발견이다. 저자는 이 레이어의 어텐션 매트릭스를 정량화해 매치 스코어 γₜ와 α_match를 정의하고, 기존 이미지 검색 엔진(SALAD)과 결합해 false positive를 효과적으로 차단한다. 마지막으로, 오픈‑셋 객체 탐지를 위해 3D 바운딩 박스를 직접 추출하고, Jetson Thor 위에서 실시간(30 fps)으로 동작함을 입증한다. 실험 결과는 실내·실외·대형 농업 환경까지 포괄하며, 특히 TUM RGB‑D 벤치마크에서 기존 VGGT‑SLAM 대비 포즈 오류가 23 % 감소한 점이 눈에 띈다. 전체적으로 이 논문은 학습 기반 기하 모델과 전통적인 SLAM 최적화 기법을 결합한 하이브리드 아키텍처의 가능성을 실증하고, 메모리·연산 효율성을 크게 개선한 점이 의의다.
댓글 및 학술 토론
Loading comments...
의견 남기기