FeudalNav 시각적 내비게이션을 위한 간단한 프레임워크
초록
FeudalNav는 계층적 구조를 이용해 이미지‑목표 내비게이션을 수행한다. 고수준 관리자는 시각적 유사성을 기반으로 만든 잠재공간 메모리 프록시 맵(MPM)을 유지하고, 중간수준 관리자는 인간의 포인트‑클릭 탐색 데이터를 학습한 Waypoint Network(WayNet)로 서브골을 생성한다. 저수준 워커는 깊이 이미지와 서브골을 이용해 전진·좌·우 행동을 선택한다. 이 방식은 odometry, 그래프, 강화학습 없이도 Habitat 환경에서 SOTA 수준의 성공률과 SPL을 달성하며, 최소한의 인간 개입으로 성능을 크게 향상시킨다.
상세 분석
FeudalNav는 전통적인 메트릭 지도나 그래프 기반 토폴로지를 배제하고, 순수히 시각적 유사성에 기반한 잠재공간 메모리 프록시 맵(MPM)을 핵심 메모리 모듈로 채택한다는 점에서 혁신적이다. MPM은 SMoG(Synchronous Momentum Grouping)와 SuperGlue 기반 키포인트 매칭을 통해 동적으로 클러스터링된 이미지 특징을 128‑차원 잠재공간에 매핑하고, 이를 2차원 이소맵 이뮬레이터 네트워크로 투사한다. 이렇게 얻어진 2D 좌표에 가우시안 윈도우를 적용해 밀도 맵을 생성함으로써, 에이전트는 자신이 이미 방문한 위치와 탐색 정도를 시각적으로 파악할 수 있다. 이는 odometry가 전혀 없는 상황에서도 상대적 거리 개념을 유지하게 해준다.
중간수준 관리자인 WayNet은 인간이 수행한 포인트‑클릭 탐색 데이터를 지도학습으로 모방한다. LA VN 데이터셋에서 추출한 관찰‑목표 이미지 쌍을 이용해 ResNet‑18 기반 네트워크가 화면 좌표(픽셀)를 예측하도록 학습한다. 이 좌표는 실제 환경에서 목표 이미지와 현재 관찰 이미지 사이의 SuperGlue 매칭 신뢰도가 높을 때는 매칭된 키포인트 평균으로 대체된다. 따라서 WayNet은 인간이 직관적으로 선택하는 “복도 끝”, “문 입구”, “방 안 깊숙이”와 같은 서브골을 자동으로 생성한다.
저수준 워커는 복잡한 강화학습 정책 대신 단순 MLP 분류기로 구현된다. 입력은 깊이 맵과 WayNet이 제공한 서브골 좌표이며, 출력은 “좌회전 15°”, “우회전 15°”, “전진 0.25 m” 중 하나이다. 목표 도달 판단은 (1) 목표 이미지와 현재 관찰 이미지 간의 SuperGlue 매칭 신뢰도 α_k가 0.7 이상, (2) 깊이 측정이 1 m 이하, 혹은 매칭된 키포인트 비율 ψ가 0.85 이상일 때 수행된다.
실험은 Habitat AI의 Gibson 테스트 환경에서 수행되었으며, 500 스텝 이내에 목표에 도달했는지를 기준으로 성공률과 SPL(Success weighted by Path Length)을 측정한다. FeudalNav는 odometry 없이도 기존 SOTA 방법들과 경쟁하거나 이를 능가하는 성능을 보였으며, 특히 인간‑인‑루프(Human‑in‑the‑Loop) 인터벤션을 최소화했을 때도 성공률이 크게 상승한다는 점을 강조한다.
이 논문의 주요 기여는 (1) 시각적 유사성만으로 구축된 메모리 프록시 맵을 통한 그래프‑프리 내비게이션, (2) 인간 시연을 모방한 Waypoint Network를 통한 서브골 생성, (3) 계층적(feudal) 구조를 통한 공간‑시간 추상화, (4) odometry·그래프·강화학습을 배제하면서도 SOTA 수준의 성능을 달성한 점이다. 특히 MPM은 메모리 효율성과 해석 가능성을 동시에 제공하며, 잠재공간 클러스터링과 이소맵 투사를 결합한 설계는 향후 시각적 메모리 연구에 새로운 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기