시각적 공간 객체 추론으로 언어 기반 객체 탐색 혁신

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

VISOR는 3 B 파라미터 규모의 단일 Vision‑Language‑Action 모델로, 이미지 기반 사고 과정을 “think → think summary → action” 순서로 전개해 목표 객체를 인식하고 고수준 웨이포인트를 선택한다. 파노라마 RGB와 실시간 구축 토폴로지 맵을 활용해 공간적 추론을 수행하고, LLM‑style 체인‑오브‑생각을 통해 “이 객체가 맞는가?”와 “왜 이 행동을 하는가?”를 명시적으로 답한다. SFT와 RL 두 단계 학습을 거쳐 WAYPOINT‑Bench라는 새로운 웨이포인트 레이블 데이터셋으로 지도학습하고, 이후 강화학습으로 탐색 효율을 높인다. 결과적으로 기존 엔드‑투‑엔드 임베딩 매칭 방식보다 일반화·설명가능성이 향상되고, 다중 모델 파이프라인 없이도 효율적인 탐색이 가능하다.

상세 분석

VISOR 논문은 언어‑주도 객체 탐색 과제에서 기존 두 갈래 접근법의 한계를 명확히 짚고, 이를 통합한 단일 모델 설계를 제시한다. 첫 번째는 RL·BC 기반 정책 네트워크가 시각‑언어 임베딩을 직접 매핑해 행동을 예측하지만, 훈련 데이터에 과도하게 의존해 새로운 환경에서 성능이 급락하고, 행동 수준의 설명이 부족한 점이다. 두 번째는 대형 언어·시각 모델과 오픈‑셋 객체 탐지기를 조합한 파이프라인으로, 고수준 추론과 설명 가능성을 제공하지만, 모델 간 오류 전파와 높은 연산 비용, 그리고 추론 결과를 정책에 재통합하는 어려움이 있다. VISOR는 3 B 파라미터 규모의 Qwen‑2.5‑VL을 기반으로, “think”, “think summary”, “action”이라는 세 단계 텍스트 출력을 강제한다. 에서는 이미지와 명령을 바탕으로 체인‑오브‑생각(Chain‑of‑Thought) 형태의 상세 추론을 생성하고, 에서는 핵심 근거를 압축한다. 은 라벨화된 웨이포인트(예: A, B, C…) 중 하나를 선택하며, 실제 로봇 제어는 Habitat의 최단 경로 플래너가 담당한다. 입력으로는 768×256 파노라마 RGB와 256×256 토폴로지 맵을 동시에 제공해 인간의 수평 시야와 유사한 넓은 시야를 확보한다. 데이터 측면에서는 GOAT‑Bench를 기반으로 WAYPOINT‑Bench를 구축했으며, 각 샘플에 목표 객체 설명, 상하 지도, 파노라마 이미지, 후보 웨이포인트, 정답 라벨, LLM이 생성한 추론 트레이스를 포함한다. 총 36 170개의 학습 샘플과 3 047개의 검증 샘플을 확보했다. 학습은 먼저 SFT 단계에서 이미지‑텍스트 쌍을 교차 엔트로피 손실로 미세조정하고, 라벨명을 무작위 알파벳으로 교체해 과적합을 방지한다. 이후 GSPO(그룹 시퀀스 정책 최적화) 기반 RL을 적용해 행동 선택에 대한 보상을 직접 최적화한다. 실험 결과, VISOR는 기존 엔드‑투‑엔드 모델 대비 성공률과 SPL(Shortest Path Length) 지표에서 유의미하게 앞서며, 특히 새로운 환경에서의 일반화가 크게 개선된다. 또한 와 를 통해 인간이 이해 가능한 설명을 제공함으로써 신뢰성을 높인다. 한계로는 현재 3 B 규모 모델이 여전히 복잡한 장면에서 미세한 속성 구분에 어려움을 보이며, 고해상도 깊이 정보 활용이 제한적이라는 점을 언급한다. 향후 연구에서는 모델 규모 확대, 멀티모달 깊이 통합, 그리고 실제 로봇에 대한 실시간 테스트가 제안된다.

시각적 공간 객체 추론으로 언어 기반 객체 탐색 혁신

초록

상세 분석

댓글 및 학술 토론

의견 남기기