맵 없이 실내 모바일 매니퓰레이션을 위한 스킬‑상태 그래프 기반 계획 및 폐쇄‑루프 실행
초록
MoMaStage는 명령어를 비전‑언어 모델(VLM)로 해석하고, 계층형 스킬 라이브러리와 스킬‑상태 그래프를 이용해 논리적·물리적 일관성을 보장한다. 그래프‑제한 계획과 실시간 프로프리오셉션 모니터링을 결합한 폐쇄‑루프 재계획 메커니즘으로 장시간 모바일 매니퓰레이션 시 오류 전파를 억제하고, 시뮬레이션·실제 환경 모두에서 기존 방법보다 높은 성공률을 달성한다.
상세 분석
본 논문은 장기적인 실내 모바일 매니퓰레이션(Long‑Horizon Mobile Manipulation, MoMA) 문제를 해결하기 위해 두 가지 핵심 아이디어를 제시한다. 첫 번째는 Skill‑State Graph라는 경량화된 상태‑전이 모델이다. 각 노드는 의미‑레벨 스킬을 나타내며, 노드에 사전조건(C)과 상태 변화(Δ)를 명시한다. 예를 들어 ‘pick’ 스킬은 그리퍼가 비어 있어야 한다는 사전조건과 물체를 그리퍼에 추가하는 Δ를 가진다. 이러한 명시적 전이 모델은 전통적인 심볼릭 월드 모델처럼 복잡한 3D 씬 그래프를 구축하지 않으면서도, 스킬 연속 실행 시 누적된 로봇 상태를 정확히 추적한다. 두 번째는 Hierarchical Skill Library와 VLM의 결합이다. 라이브러리는 Action‑Level(저수준 제어)과 Semantic‑Level(환경 의미를 포함한 고수준 스킬) 두 층으로 구성돼, VLM이 자연어 명령을 해석할 때 가능한 스킬 시퀀스를 그래프의 토폴로지(인접 관계) 안에서만 생성하도록 제한한다. 이는 VLM이 “물리적 환상(physical hallucination)”을 일으켜 비논리적인 스킬 체인을 제시하는 것을 방지한다.
계획 단계는 두 단계로 나뉜다. ① Topology‑aware Semantic Planning에서는 VLM이 입력 명령·시각 관측·부분 그래프(G_topo)만을 이용해 토폴로지 상으로 유효한 스킬 경로를 생성한다. ② State‑Driven Feasibility Verification에서는 완전한 Skill‑State Graph를 사용해 각 스킬의 Δ를 순차적으로 적용, 누적 상태가 모든 사전조건과 일치하는지 검증한다. 불일치가 발견되면 VLM에 재분해를 요청해 새로운 후보를 만든다.
실행 단계는 Closed‑Loop Execution으로, 로봇의 관절 엔코더, 그리퍼 촉각, 베이스 위치 등 프로프리오셉션 데이터를 고주파로 모니터링한다. 스킬 성공 여부가 즉시 판단되며, 실패가 감지될 경우 그래프‑제한 재계획을 트리거한다. 이때 VLM 호출은 최소화돼, 높은 추론 지연 없이도 동적 환경 변화(예: 물체 미끄러짐, 경로 차단)에 대응한다.
실험은 물리‑풍부한 시뮬레이터와 실제 가정형 로봇 플랫폼(NJU Lab)에서 수행됐으며, 주요 벤치마크(예: Open‑Vocab Mobile Manipulation, VIMA, Octo 등) 대비 계획 성공률, 토큰(프롬프트) 사용량, 전체 작업 성공률이 크게 향상되었다. 특히 10‑step 이상 길이의 복합 작업에서 기존 방법은 30‑40% 수준의 성공률을 보였던 반면, MoMaStage는 70% 이상을 달성했다.
핵심 기여는 (1) 명시적 상태 전이를 통한 경량 그래프 설계, (2) VLM 기반 고수준 계획에 그래프 제약을 결합한 구조화된 프롬프트 설계, (3) 프로프리오셉션 기반 폐쇄‑루프 재계획 메커니즘이다. 제한점으로는 현재 스킬 라이브러리가 사전에 정의된 고정 집합에 의존한다는 점과, 복잡한 다중 로봇 협업 상황에 대한 확장성이 아직 검증되지 않았다는 점을 들 수 있다. 향후 연구에서는 자동 스킬 학습 및 그래프 동적 확장, 그리고 멀티‑에이전트 시나리오 적용을 통해 범용성을 높일 수 있을 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기