실내외 연속 이동을 위한 비전 기반 지시형 임베디드 내비게이션
초록
본 논문은 실내와 실외를 연결하는 ‘아웃투인(Out‑to‑In)’ 과제를 정의하고, 외부 좌표나 지도와 같은 사전 정보를 전혀 사용하지 않고 순수 시각 입력과 간단한 텍스트 지시만으로 목표 건물의 입구까지 정확히 이동할 수 있는 BridgeNav 프레임워크와 대규모 데이터셋 BridgeNavDataset을 제안한다. 시각 트랜스포머와 대형 멀티모달 언어 모델(Qwen2.5‑VL‑3B)을 기반으로 잠재 의도 추론 모듈과 광학 흐름 기반 동적 인지 모듈을 결합해, 거리·단계에 따라 시각적 관심을 동적으로 전환하고 미래 시각 변화를 예측한다. 실험 결과, 제안 방법이 기존 실내·실외 벤치마크 대비 성공률·경로 효율성 모두에서 우수함을 입증한다.
상세 분석
BridgeNav 논문은 기존 실내 전용 VLN(Visual‑Language Navigation)과 실외 포인트‑투‑포인트 내비게이션이 각각 갖는 한계를 명확히 짚고, “아웃투인 prior‑free”라는 새로운 과제를 제시한다는 점에서 의미가 크다. 이 과제는 에이전트가 GPS·지도·정밀 좌표와 같은 외부 프라이버시‑제한 정보 없이, 오직 egocentric RGB 이미지와 “스타벅스에 가라”와 같은 짧은 텍스트 지시만으로 실외에서 실내 입구까지 정확히 도달해야 한다는 전제다.
핵심 기술은 크게 네 부분으로 나뉜다. 첫째, 시각 인코더로 Vision Transformer(ViT)를 사용해 이미지 토큰을 추출한다. 둘째, 잠재 의도 추론(Latent Intention Inference) 모듈은 현재 거리 단계(멀리, 중간, 근접)에 따라 주목해야 할 시각 영역을 동적으로 선택한다. 멀리 있을 때는 목표 건물의 존재 여부를 판단하고, 중간 단계에서는 간판(signage)을, 근접 단계에서는 입구 자체를 강조한다. 이는 인간이 실제로 거리·시점에 따라 시각적 주의를 전환하는 과정을 모델링한 것이다.
셋째, 광학 흐름‑가이드 동적 인지(Optical‑Flow‑Guided Dynamic Perception) 모듈은 RAFT 기반의 광학 흐름을 계산해, 에이전트의 움직임에 의해 크게 변할 픽셀 영역을 선택하고, 해당 영역만을 복원하도록 학습한다. 이렇게 “미래 시각을 상상(imagine)”하게 함으로써, 현재 행동이 다음 프레임에 어떤 시각적 변화를 초래할지 사전 예측하고, 이를 내비게이션 정책에 반영한다.
넷째, **멀티모달 대형 언어 모델(Qwen2.5‑VL‑3B)**을 교차 주의 메커니즘으로 활용해 이미지 토큰과 텍스트 임베딩을 융합한다. 초기 학습 가능한 토큰을 삽입해 trajectory prediction에 직접 연결하고, 최종 디코더가 미래 waypoint 시퀀스를 출력한다.
학습은 두 단계로 진행된다. 1) 잠재 의도 추론을 위한 바운딩 박스 회귀 손실을 중심으로 사전 학습하고, 2) 의도 모듈을 고정한 뒤 waypoint 예측과 광학 흐름 기반 마스크 재구성을 동시에 최적화한다. 이렇게 하면 의도 추론과 실제 경로 계획이 서로 간섭 없이 독립적으로 강화된다.
데이터 측면에서는 기존 실내 데이터셋(MP3D, HM3D 등)이나 실외 스트리트뷰 데이터셋과 달리, BridgeNavDataset을 구축한다. 여기서는 “trajectory‑conditioned video synthesis” 파이프라인을 도입해, 실제 GPS·지도 없이도 다양한 거리·시점에서의 연속 영상과 정확한 입구 라벨을 자동 생성한다. 이는 대규모 고품질 학습 데이터를 저비용으로 확보할 수 있게 해준다.
실험에서는 성공률(SR), SPL(Path Length), 입구 도달 정확도 등 여러 지표에서 기존 SOTA(Anderson, R2R, GOAT‑Bench 등)를 크게 앞선다. 특히 입구 도달 정확도에서 15~20%p 상승을 기록했으며, 이는 광학 흐름 기반 동적 인지가 “미래 시각 예측”을 통해 미세 조정된 행동을 가능하게 함을 입증한다.
전체적으로 이 논문은 (1) 실내·실외 연속 내비게이션이라는 새로운 문제 정의, (2) 단계별 시각 주의 전환을 구현한 잠재 의도 모듈, (3) 행동‑시각 연관성을 학습하는 광학 흐름 기반 상상 메커니즘, (4) 대규모 자동 생성 데이터셋이라는 네 가지 혁신을 동시에 제공한다. 향후 실제 로봇 배달, 무인 차량, AR 내비게이션 등에 바로 적용 가능한 실용적 기반을 마련했으며, 프라이버시·보안 제약이 있는 현장에서도 활용 가능하다는 점에서 큰 기대를 모은다.
댓글 및 학술 토론
Loading comments...
의견 남기기