픽셀에서 논리식까지 로봇 세계 모델 학습
초록
본 논문은 사전 학습된 비전‑언어 모델(VLM)을 활용해 이미지 기반 시연으로부터 시각적 프레디케이트를 자동 생성하고, 이를 통해 소수의 짧은 시연만으로도 추상적인 심볼릭 세계 모델을 학습한다. 학습된 모델은 검색 기반 플래너와 결합되어 새로운 목표와 환경에서도 장기 계획을 수행할 수 있다.
상세 분석
이 연구는 로봇 장기 의사결정 문제를 해결하기 위해 두 가지 핵심 아이디어를 결합한다. 첫째, 대규모 비전‑언어 모델을 프롬프트 엔진으로 사용해 “NoObjectsOnTop(?table)”와 같은 고수준 시각 프레디케이트를 자동으로 제안한다. VLM은 이미지와 텍스트 사이의 풍부한 공통지식을 활용해 인간이 직관적으로 이해하는 개념을 픽셀 수준에서 바로 평가할 수 있게 한다. 둘째, 제안된 프레디케이트 풀을 기존의 기호적 플래닝 프레임워크(Silver et al., 2022)와 연계해 최적의 서브셋을 선택한다. 선택 과정은 이중 최적화 형태로, (1) 시연 데이터를 통해 각 프레디케이트의 진리값을 추정하고, (2) 선택된 프레디케이트와 연관된 연산자(operator)를 학습해 플래닝 효율성을 최대화한다. 특히, 연산자 학습 단계에서는 소프트 프리컨디션 교차(soft precondition intersection)와 같은 기법을 도입해 VLM이 생성하는 노이즈를 완화한다.
시연 입력은 (i) 객체 메타데이터(이름, 타입, 자연어 설명), (ii) 이미지 시퀀스, (iii) 초기 프레디케이트 집합이다. 시스템은 먼저 VLM에게 도메인‑특화 프레디케이트 후보를 생성하도록 프롬프트하고, 각 후보에 대해 시연 전후 이미지에서 진리값을 라벨링한다. 이후, bilevel 최적화가 수행돼 (a) 연산자 전이 모델을 만족시키는 프레디케이트 조합을 찾고, (b) 선택된 프레디케이트가 플래너의 탐색 공간을 최소화하도록 보상한다. 결과적으로, 매우 적은 수(<15)의 인간 시연만으로도 “픽셀 → 논리식” 변환 파이프라인이 완성된다.
실험은 세 가지 시뮬레이션 도메인과 실제 Boston Dynamics Spot 로봇을 사용해 검증한다. 시뮬레이션에서는 기존 메타‑학습 기반 방법과 비교해 성공률, 목표 다양성, 계획 길이 면에서 우수함을 보였다. 실제 로봇 실험에서는 서로 다른 방 배치, 물체 종류, 배경을 가진 두 개의 복합 작업을 성공적으로 수행했으며, 이는 VLM 기반 프레디케이트가 환경 변화에 강인함을 의미한다. 또한, 제안된 방법은 온라인 탐색이나 환경 재설정 없이 오프라인 시연만으로 모델을 구축할 수 있다는 점에서 데이터 효율성이 뛰어나다.
전체적으로 이 논문은 (1) VLM을 통한 시각 프레디케이트 자동 발명, (2) 플래닝 효율성을 고려한 기호적 세계 모델 학습, (3) 소수의 인간 시연만으로 장기 로봇 계획을 가능하게 하는 세 가지 혁신을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기