StepNav: 구조화된 궤적 사전으로 효율적·다중모드 시각 내비게이션
초록
StepNav은 시각 입력으로부터 성공 확률 필드를 학습하고, 이를 기반으로 다중모드 궤적 사전을 생성한 뒤, 정규화된 조건부 흐름 매칭(Reg‑CFM)으로 정제하는 프레임워크이다. 구조화된 사전은 무작위 노이즈보다 물리적 제약에 부합하는 초기 궤적을 제공해 샘플링 단계와 연산량을 크게 줄이며, 실험에서 성공률·안전성·경로 효율성 모두 기존 최첨단 방법을 능가한다.
상세 분석
StepNav은 시각 내비게이션 문제를 “특징‑정제 → 성공 확률 필드 → 구조화된 다중모드 사전 → 정규화 흐름 매칭”이라는 네 단계 파이프라인으로 재구성한다. 첫 단계에서 V‑JEPA2 인코더로 추출한 시퀀스 특징을 시간 라플라시안과 전역 모션 컨텍스트를 이용해 최소화 문제(3‑4식)로 정제함으로써, 시각 잡음과 순간적인 변동을 억제하고 연속적인 동적 정보를 보존한다. 두 번째 단계는 정제된 특징을 입력으로 연속적인 성공 확률 필드 F(x)를 학습한다. 여기서는 이진 라벨 y(x)와 함께 1차·2차 그래디언트 정규화를 포함한 바이하모닉 PDE(6식)를 풀어, 넓고 부드러운 ‘통로’를 형성하도록 설계하였다. 이 필드는 실제 충돌 비용의 역수에 해당하므로, 궤적 에너지 E(τ) (7식)를 정의해 저에너지 경로를 그래프화하고 K‑shortest‑path 알고리즘으로 다수의 후보 궤적을 추출한다. 후보는 최대‑최소 Hausdorff 거리 기준으로 다양성을 보장하며, 성공 확률·길이·곡률을 종합한 스코어 S(τ) 에 따라 가중치 πₘ을 부여한 혼합 사전 p_prior (8식)으로 표현된다. 세 번째 단계에서는 이 사전을 초기값으로 사용해 조건부 흐름 매칭 모델 v_θ (9식)를 학습한다. 기존 흐름 매칭 손실에 매끄러움(11식)과 안전성(12식) 정규화를 추가한 목표 함수 (10식)는 물리적 제약을 직접 최적화한다. 결과적으로 사전이 이미 안전하고 다중모드 특성을 내포하고 있기 때문에, 몇 단계(N≈5)만의 적분으로 충분히 고품질 궤적을 생성한다. 실험에서는 실내·실외 벤치마크에서 성공률(SR)·SPL·충돌률·최소 스냅(MS) 모두 기존 Diffusion·Flow 기반 방법을 크게 앞섰으며, Jetson Orin 탑재 로봇에서도 실시간(≤30 ms) 추론이 가능했다. 주요 강점은 (1) 시각‑기하 정보를 통합한 확률 필드 기반 사전 생성, (2) 다중모드 후보를 명시적으로 보존, (3) 정규화 흐름 매칭을 통한 안전·매끄러움 보장이다. 한계로는 성공 확률 필드 학습에 라벨 y(x) 가 필요하고, 복잡한 3D 환경에서 필드 해석 비용이 증가할 수 있다는 점이다. 향후 라벨‑프리 혹은 자기지도 방식으로 필드 추정을 확장하고, 고차원 맵에 대한 효율적 그래프 구축 방법을 연구하면 보다 일반화된 적용이 가능할 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기