두뇌처럼 생각하고 움직이는 로봇 Hydra Nav

두뇌처럼 생각하고 움직이는 로봇 Hydra Nav
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Hydra-Nav는 대형 비전‑언어 모델을 기반으로, 탐색 이력 분석을 담당하는 “느린 시스템”과 실시간 움직임을 담당하는 “빠른 시스템”을 하나의 모델 안에서 적응적으로 전환한다. 3단계 커리큘럼 학습과 반복적 거부 샘플링 파인튜닝(IRFT)을 통해 장기 기억과 시간‑공간 추론 능력을 강화하고, 연산 비용을 최소화하면서도 HM3D, MP3D, OVON 벤치마크에서 최고 수준의 성공률과 검색 효율성을 달성한다.

상세 분석

Hydra-Nav는 기존 VLM 기반 객체 탐색 에이전트가 겪는 “시간‑공간 추론 부족”과 “과도한 추론 비용”이라는 두 가지 근본적인 문제를 동시에 해결한다. 핵심 설계는 하나의 거대 언어‑시각 모델(Qwen2.5‑VL‑7B)을 기반으로, 메타 액션 ‘obs’를 통해 느린 시스템과 빠른 시스템 사이를 동적으로 전환하는 ‘전이 토큰’ 메커니즘이다. 느린 시스템은 파노라마 스캔(4개의 90° 회전 이미지)과 구조화된 장기 메모리(텍스트‑이미지 랜드마크 그래프)를 입력받아, 과거 탐색 기록을 요약하고 현재 시야를 분석한 뒤 고수준 계획을 자연어 형태의 CoT(Chain‑of‑Thought)로 생성한다. 이때 생성된 고수준 계획은 즉시 메타 액션으로 이어져 빠른 시스템에 전달된다. 빠른 시스템은 KV‑캐싱을 활용해 최신 프레임만 인코딩하고, 저레벨 이동 명령(MoveAhead, TurnLeft/Right 등)을 자동 회귀적으로 디코딩한다. 이렇게 하면 전체 히스토리를 매번 재처리할 필요가 없어 연산량이 크게 감소한다.

적응적 전환은 에이전트가 현재 고수준 계획을 완료하거나, 시야가 계획을 무효화할 경우 ‘obs’ 토큰을 출력함으로써 트리거된다. 새로운 파노라마 스캔이 수행되고, 스캔 결과는 새로운 랜드마크 노드로 그래프에 삽입된다. 메모리 길이는 시작·종료 노드를 고정하고, 중간 노드는 균등 샘플링하여 최대 10개로 제한함으로써 컨텍스트 폭발을 방지한다.

학습 파이프라인은 세 단계로 구성된다. 1단계(Spatial‑Action Alignment)에서는 A* 플래너를 이용해 500K 수준의 탐색 궤적을 생성하고, VLM을 기본 이동 정책으로 학습시켜 기본적인 충돌 회피와 경로 추종 능력을 확보한다. 2단계(Reasoning‑Memory Integration)에서는 탐색 중간에 의도적으로 ‘고점’(exploration points)을 삽입하고, Qwen3‑VL‑235B‑Thinking 모델을 프롬프트해 과거 요약·현재·미래 시야를 기반으로 CoT 텍스트를 합성한다. 여기서 미래 시야는 모델이 직접 언급하지 못하도록 필터링하고, LLM 검증을 통해 정보 누출을 차단한다. 3단계(Iterative Rejection Fine‑Tuning, IRFT)에서는 정책 롤아웃 중 ‘정체점(stagnation point)’을 자동 탐지하고, 해당 시점에만 느린 시스템을 강제 삽입한다. 거부 샘플링을 통해 비효율적인 추론을 배제하고, 에이전트가 실제로 필요할 때만 고비용 CoT를 수행하도록 학습한다.

성능 평가에서 Hydra‑Nav‑IRFT는 HM3D, MP3D, OVON에서 각각 기존 최고 모델 대비 11.1%, 17.4%, 21.2%의 성공률 향상을 보였으며, 새롭게 제안한 SOT(Success weighted by Operation Time) 지표에서도 고정‑주기 추론 대비 현저히 높은 검색 효율성을 기록했다. 이는 적응적 추론이 성공률을 유지하면서도 연산 비용을 크게 절감한다는 실증적 증거다.

하지만 몇 가지 한계도 존재한다. 첫째, 학습에 사용된 500K 수준의 합성 궤적과 CoT 텍스트는 전적으로 시뮬레이션 환경에 기반하므로 실제 물리 로봇에 적용할 때 도메인 차이(gap) 문제가 발생할 가능성이 있다. 둘째, 메모리 프루닝 정책이 단순히 균등 샘플링에 의존하기 때문에, 중요한 중간 랜드마크가 삭제될 위험이 있다. 셋째, 대규모 VLM(Qwen2.5‑VL‑7B) 자체의 학습·추론 비용이 여전히 높아, 제한된 하드웨어 환경에서는 실시간 적용이 어려울 수 있다. 마지막으로, SOT 지표는 연산 시간만을 고려하므로, 실제 로봇의 전력 소비·배터리 수명 등 물리적 제약을 완전히 반영하지 않는다. 이러한 점들을 보완한다면 Hydra‑Nav는 실세계 로봇 탐색 분야에서 더욱 강력한 솔루션이 될 것이다.


댓글 및 학술 토론

Loading comments...

의견 남기기