유니플랜 모바일 매니퓰레이션을 위한 비전‑언어 통합 PDDL 계획 시스템

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
UniPlan은 대규모 실내 환경에서 비전‑언어 모델(VLM)과 기호 기반 PDDL 플래너를 결합해, 이미지와 토폴로지를 보존한 시각‑토폴로지 맵을 기반으로 장기 모바일 매니퓰레이션 계획을 자동 생성한다. 기존 테이블탑 전용 도메인을 프로그램적으로 확장해 네비게이션·문 통과·양손 협동을 지원하며, 작업에 필요한 이미지 노드만 선택해 비용 효율적인 PDDL 문제를 만든 뒤, 상용 솔버로 최적 경로와 조작 순서를 도출한다. 실험 결과 인간이 제시한 복합 작업에서 성공률·계획 품질·연산 속도 모두 기존 VLM·LLM 기반 방법을 크게 앞섰다.

상세 분석

**
UniPlan은 크게 네 가지 핵심 설계 원칙을 따른다. 첫째, 시각‑토폴로지 맵을 유지함으로써 환경 전체의 이미지 정보를 손실 없이 보존한다. 이 맵은 네비게이션 랜드마크와 이미지가 결합된 노드 집합으로 구성되며, 노드 간 연결성·거리 비용을 명시한다. 둘째, VLM을 이용해 선택된 이미지에서 작업에 필요한 객체와 상태를 온‑디맨드로 PDDL 프레디케이트로 변환한다. 여기서 VLM은 전체 이미지 스트림을 처리하지 않고, 작업 관련 노드에만 집중해 연산 부하를 크게 줄인다. 셋째, UniDomain에서 학습된 테이블탑 조작 도메인을 AST 기반의 프로그램적 확장으로 네비게이션·문·양손 동작을 추가한다. 구문 트리를 파싱해 (rob_at_node), (obj_at_node), (connected), (has_door) 등 위치·연결 프레디케이트를 삽입하고, 이동·문 열기 연산을 정의함으로써 물리적 제약을 정확히 모델링한다. 넷째, 압축된 작업‑지향 토폴로지를 생성해 전체 맵 대신 소수의 관련 노드만으로 PDDL 문제를 만든다. 이 과정에서 원본 맵에서 비용을 조회해 (travel_cost) 함수를 채워 비용‑최적 플래닝이 가능하도록 한다.

기술적으로 가장 눈에 띄는 점은 도메인 확장의 일반성이다. PDDL는 컨텍스트‑프리 문법을 갖기에 AST 변환이 문법 오류 없이 수행될 수 있다. UniPlan은 “핸드 프리”와 “홀딩”이라는 두 개의 의미적 앵커를 기준으로 모든 연산에 손쉽게 위치·손 파라미터를 주입한다. 이 방식은 기존에 손목‑특정이거나 고정된 프레디케이트를 사용하던 도메인과도 호환되며, 다른 학습 기반 혹은 수작업 도메인에도 동일하게 적용 가능하다. 또한 비용 모델링을 통해 이동 비용과 조작 비용을 동시에 최적화함으로써, 단순히 실행 가능성만을 검증하는 기존 플래너와 차별화된다.

실험에서는 4가지 환경 설정(단일/양손, 문 유무)에서 인간이 제시한 복합 목표(예: “주방에서 물을 가져와 거실 테이블에 놓아라”)를 테스트했다. UniPlan은 성공률 92% 이상, 평균 플랜 길이 15% 감소, 계획 시간 0.8초 이하로 기존 VLM‑Only(성공률 58%, 평균 4.2초)와 LLM+PDDL(성공률 71%, 평균 2.9초)를 크게 앞섰다. Ablation 연구는(1) 작업‑지향 맵 압축이 없을 경우 연산량이 급증하고 성공률이 떨어짐, (2) 도메인 확장이 없으면 문을 통과하거나 이동이 불가능해 계획이 실패함을 확인했다.

요약하면 UniPlan은 시각‑언어 인식, 토폴로지 기반 공간 모델링, 그리고 기호적 PDDL 플래닝을 효율적으로 결합해, 대규모 실내 로봇이 인간 수준의 장기 작업을 신뢰성 있게 수행하도록 만든 최초의 시스템이라 할 수 있다.

유니플랜 모바일 매니퓰레이션을 위한 비전‑언어 통합 PDDL 계획 시스템

초록

상세 분석

댓글 및 학술 토론

의견 남기기