SceneVGGT 실내 장면 이해와 내비게이션을 위한 온라인 3D 의미 SLAM

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SceneVGGT는 VGGT 기반의 피드포워드 멀티뷰 트랜스포머를 슬라이딩 윈도우와 카메라 포즈 기반 서브맵 정렬 기법으로 확장하여, 긴 영상 스트림에서도 메모리와 연산량을 일정하게 유지하면서 3D 기하학적 일관성과 2D 인스턴스 마스크를 3D 객체로 올려주는 의미 매핑을 실시간으로 수행한다. 추정된 바닥 평면에 객체 위치를 투영해 보조 내비게이션 모듈을 구현했으며, ScanNet++에서 경쟁력 있는 포인트 클라우드 성능과 17 GB 이하의 GPU 메모리 사용을 달성한다.

상세 분석

SceneVGGT는 기존 VGGT가 가진 깊이·포즈 추정 정확성을 유지하면서, 시퀀스 길이에 따라 급증하는 메모리 요구를 완화하기 위해 슬라이딩 윈도우 기반 스트리밍 파이프라인을 도입한다. 각 윈도우는 n개의 프레임과 이전 블록에서 k ≤ n개의 키프레임을 겹쳐서 처리하며, 겹치는 프레임을 통해 블록 간 포즈 변환을 추정한다. 이때 k = n으로 설정해 키프레임을 전부 활용함으로써 정합성을 강화하고, 블록 규모는 하드웨어에 맞게 조정한다. 깊이 추정은 VGGT의 예측값에 LiDAR 기반 절대 스케일을 적용해 메트릭 단위로 보정한다. 신뢰도가 낮은 픽셀(예: 예측 깊이 신뢰도 < 1.1 또는 하위 10 % 깊이)과 센서 사정거리 밖 픽셀을 마스크 처리해 정합 오류를 방지한다.

의미 매핑은 2D 인스턴스 마스크를 3D 포인트 클라우드에 올리는 과정에서 VGGT 트래킹 헤드를 활용한다. 마스크는 약간 침식 후 균일 그리드 샘플링을 거쳐 포인트를 선택하고, 트래킹 헤드가 각 프레임 사이의 변환을 추정해 동일 객체에 일관된 ID를 부여한다. 새로운 객체가 블록 중간에 등장하면 “untracked” 상태로 남겨 추후 키프레임에서 재인식한다. 트랙릿 간 매칭은 각 트랙릿의 프레임별 중앙점 집합을 KD‑Tree 기반 Chamfer 거리로 비교해 30 cm 이하이면 병합한다. 이렇게 유지되는 전역 ID와 타임스탬프를 이용해 객체 상태를 RECENT, REMOVED, RETAINED 로 구분하고, 관측 누락 시 신뢰도 감소를 적용해 장면 변화 감지를 가능하게 한다.

내비게이션 모듈은 실내가 평면 바닥을 가진다는 가정 하에 3D 포인트를 바닥 평면에 투영해 2D 그리드 맵을 만든다. 바닥 평면은 RANSAC 기반 추정으로 주기적으로 갱신되며, 평면이 크게 변하면 기존 맵을 재투영한다. 각 셀은 관측된 포인트 수를 프레임 수로 나눈 평균 밀도로 표현해 일시적 객체 체류에 강인하게 만든다. 장애물 셀은 객체 마스크를 이용해 팽창 연산을 수행해 로봇(또는 보행자)의 크기를 고려한 보수적 자유 공간을 만든다. 목표 객체(예: 의자)가 보이면 해당 마스크를 필터링해 가장 가까운 중심점을 목표로 설정하고, 목표가 보이지 않을 경우 프론티어 탐색을 수행한다.

실험에서는 7‑Scenes 데이터셋에서 포즈 RMSE와 ATE, 그리고 정확도·완전도·법선 일관성 지표를 측정해 기존 스트리밍 SLAM(예: StreamVGGT, InfiniteVGGT)과 비슷하거나 우수한 성능을 보였다. 메모리 사용량은 시퀀스 길이에 무관하게 17 GB 이하로 유지되었다. 의미 평가는 ScanNet++ 검증·테스트 셋에서 9가지 주요 클래스에 대해 GT 마스크를 사용해 ID 일관성을 측정했으며, 트랙릿 매칭과 상태 업데이트가 높은 일관성을 유지함을 확인했다. 보조 내비게이션 시연에서는 의자를 찾아 빈 좌석을 제시하는 데 성공했으며, 실시간 오디오 피드백을 제공한다. 전체적으로 SceneVGGT는 긴 스트리밍 환경에서도 메모리·연산 효율성을 유지하면서 3D 기하학·의미 일관성을 동시에 제공하는 실용적인 온라인 의미 SLAM 시스템으로 평가된다.

SceneVGGT 실내 장면 이해와 내비게이션을 위한 온라인 3D 의미 SLAM

초록

상세 분석

댓글 및 학술 토론

의견 남기기