스테레오와 중간 비전으로 강화된 동적 도시 내비게이션
초록
본 연구는 동적이고 비구조화된 도시 환경에서의 로봇 내비게이션을 위해 스테레오 비전 입력과 명시적인 중간 수준 비전 모듈(깊이 추정, 픽셀 트래킹)을 내비게이션 파운데이션 모델(NFM)에 통합한 ‘StereoWalker’를 제안합니다. 단안 비전의 깊이-스케일 모호성을 해결하고 신뢰할 수 있는 기하학적/동적 구조를 제공함으로써, 제안 방법은 기존 최고 기술 대비 극히 적은 양(1.5%)의 학습 데이터로 동등한 성능을 달성하고, 전체 데이터 사용 시 성능을 능가합니다. 또한 대규모 스테레오 내비게이션 데이터셋을 공개하여 연구 발전을 촉진합니다.
상세 분석
이 논문의 기술적 핵심은 내비게이션 파운데이션 모델(NFM)의 학습 효율성과 동적 환경에서의 강건성을 획기적으로 향상시키기 위한 ‘명시적 지식 주입’ 전략에 있습니다. 기존 NFM이 단안 RGB 픽셀에서 직접 행동을 매핑하는 ‘암묵적 학습’에 의존하며 발생하는 두 가지 근본적 문제—깊이-스케일 모호성과 중간 표현 부재—를 정면으로 해결합니다.
첫째, 스테레오 비전 도입은 깊이 정보의 척도를 물리적 단위로 복원함으로써 공간 추론의 정확도를 근본적으로 높입니다. 이는 단안 영상에서 불가피한 깊이 추정 오차가 내비게이션 명령의 노이즈로 직결되는 문제를 완화합니다. 논문은 실험을 통해 스테레오 입력이 단안 입력보다 항상 높은 내비게이션 성능을 보임을 입증합니다.
둘째, 중간 수준 비전 모듈의 명시적 통합은 모델이 학습해야 할 ‘지식’의 부담을 크게 줄입니다. DINOv2(겉모습), DepthAnythingV2(깊이), CoTracker-v3(점 트래킹) 등 사전 학습된 강력한 비전 파운데이션 모델을 고정(frozen) 상태로 활용하여, 각각이 제공하는 최적화된 표현(깊이 맵, 포인트 트랙)을 저수준 특징으로 공급합니다. 이는 내비게이션 정책 네트워크가 픽셀으로부터 기하학적 구조나 운동 정보를 처음부터 추론하는 비효율적인 과정을 생략하게 만듭니다. 특히 ‘트래킹-가이디드 어텐션(TrackTention)’ 메커니즘은 시간적 일관성을 유지하며 동적 객체의 운동 패턴을 효과적으로 모델링하는 데 기여합니다.
결과적으로, StereoWalker는 CityWalker 대비 1.5%의 데이터로 동등한 성능에 도달하는 압도적인 데이터 효율성을 보여줍니다. 이는 명시적 지식(스테레오 기하, 깊이, 트랙)이 내비게이션 작업 학습에 필요한 ‘데이터 양’을 극적으로 줄일 수 있음을 시사하는 매우 중요한 통찰입니다. 즉, 엔드투엔드 학습의 장점을 유지하면서도, 모델이 학습해야 할 불필요한 불확실성(ambiguity)을 사전 지식으로 제거함으로써 ‘학습 난이도’를 낮춘 것입니다.
댓글 및 학술 토론
Loading comments...
의견 남기기