에어리얼 객체 탐색을 위한 비동기 메모리 기반 탐험기 APEX
초록
APEX는 UAV가 고해상도 3D 스페이시오-시맨틱 맵을 실시간으로 구축하고, 강화학습 기반 행동 결정 모듈과 개방형 어휘 탐지기를 결합한 계층적 비동기 구조를 제안한다. 동적 매핑, 분리된 의사결정, 그리고 병렬 실행을 통해 VLM의 추론 지연을 최소화하고, 복잡한 3D 환경에서 목표 객체를 효율적으로 탐색한다. UAV‑ON 벤치마크에서 성공률(SR) 4.2%, SPL 2.8% 향상을 달성했다.
상세 분석
APEX는 기존 Aerial ObjectNav 시스템이 직면한 세 가지 핵심 문제—공간‑시간 메모리 부족, 의미 이해와 행동 제어 간의 격차, 그리고 높은 추론 지연—를 구조적으로 해결한다. 첫 번째 모듈인 Dynamic Spatio‑Semantic Mapping Memory는 Vision‑Language Model(VLM)의 제로샷 능력을 활용해 RGB‑D 입력을 3D 그리드에 백프로젝션하고, Attraction, Exploration, Obstacle 세 개의 채널로 나누어 저장한다. 여기서 Attraction 채널은 MLLM이 제공하는 객체 캡션과 점수, 그리고 오픈‑보카뷸러리 세그멘테이션 마스크를 결합해 객체‑중심 매력을 정량화한다. 두 번째 모듈인 Action Decision Module은 PPO 기반 정책 네트워크에 최신 맵 정보를 입력해 고해상도 공간 정보를 저레벨 제어 명령으로 변환한다. 이때 맵 업데이트 주기가 행동 결정 주기보다 느리므로, 비동기 파이프라인을 도입해 정책이 항상 최신 Obstacle 정보를 활용하면서도 Attraction·Exploration 맵의 오래된 값에 의존하지 않도록 설계했다. 세 번째 Target Grounding Module은 DINO‑based open‑vocabulary detector를 사용해 목표 객체를 정확히 식별하고, “마지막 한 걸음”을 검증한다. 전체 시스템은 계층적 비동기 병렬 프레임워크로 구현돼 VLM 추론 지연을 숨기고 UAV가 연속적인 비행을 유지한다. 실험에서는 UAV‑ON 데이터셋의 복잡한 3D 씬에서 기존 최첨단 모델 대비 SR 4.2%, SPL 2.8% 상승을 기록했으며, 맵 업데이트 주기와 정책 실행 주기의 차이가 탐색 효율을 크게 향상시킴을 입증했다. 이 설계는 메모리의 해상도와 의미 정보를 유지하면서도 실시간 제어 요구를 만족시키는 점에서 특히 주목할 만하다.
댓글 및 학술 토론
Loading comments...
의견 남기기