계층적 로봇 조작을 위한 확장형 세계 모델

계층적 로봇 조작을 위한 확장형 세계 모델
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

VISTA는 대규모 사전학습된 세계 모델을 고수준 플래너로, 시각‑언어‑액션(VLA) 정책을 저수준 실행기로 결합한 계층적 프레임워크이다. 세계 모델이 텍스트 명령을 시각적 서브골 이미지와 텍스트 서브태스크 시퀀스로 분해하고, GoalVLA가 현재 관찰과 해당 서브골을 조건으로 행동 청크를 생성한다. 2시간의 실제 로봇 데이터만으로도 21개의 미지 객체와 새로운 시나리오에서 69% 성공률을 달성해, 기존 언어‑기반 VLA가 14%에 머물던 OOD 성능을 크게 끌어올렸다.

상세 분석

본 논문은 로봇 조작에서 장기 목표를 직접 텍스트 → 행동으로 매핑하는 기존 VLA 모델들의 OOD 취약성을 근본적인 데이터 구조 불일치에서 찾는다. VLM은 이미지‑텍스트 쌍을 학습해 이산적인 언어 분포를 모델링하지만, VLA는 연속적인 로봇 행동 시퀀스를 회귀 학습한다는 점에서 일반화 능력이 크게 제한된다. 이를 해결하기 위해 저자는 ‘시각적 서브골(Visual Subgoal)’이라는 중간 표현을 도입한다. 세계 모델(W)은 초기 관찰과 전역 명령을 입력으로 받아, 텍스트 서브태스크와 다중‑뷰 목표 이미지의 교차 시퀀스를 자동 회귀적으로 생성한다. 이때 이미지 토큰화는 IBQ‑Tokenizer, 텍스트는 Qwen3 토크나이저를 사용해 동일 vocab에 매핑함으로써 멀티모달 시퀀스를 하나의 트랜스포머에 통합한다. 학습은 대규모 EMU3.5 데이터(2000 스텝) 위에 계속 진행되며, 교사 강제와 인과적 어텐션 마스크를 적용해 토큰‑레벨 확률을 최적화한다. 추론 단계에서는 빔 서치를 통해 전역적으로 일관된 서브골 시퀀스를 생성하고, 역 토크나이저로 픽셀 수준 이미지로 복원한다. 이렇게 얻어진 시각적 마일스톤은 물리적 일관성과 다중‑뷰 정보를 내포하므로, 저수준 정책이 ‘어디에’ 놓여야 하는지를 명확히 알 수 있다. GoalVLA는 현재 관찰 Iₜ와 해당 단계의 텍스트 서브태스크 lᵢ, 목표 이미지 gᵢ를 결합해 행동 청크 a를 예측한다. 행동 청크는 연속적인 로봇 제어를 담당하며, 목표 이미지와의 시각적 정렬이 이루어지면 서브태스크 전환기가 다음 단계로 이동한다. 이 계층적 루프는 (1) 세계 모델이 제공하는 시각적 제약, (2) 저수준 정책이 텍스트와 이미지 모두를 조건으로 삼아 행동을 생성한다는 점에서 기존 순수 언어 기반 플래너와 달리 OOD 상황에서도 강인한 일반화를 보인다. 실험에서는 5개의 객체에 대해 2시간의 텔레오퍼레이션 데이터만 수집했음에도, 21개의 전혀 보지 못한 객체와 새로운 시나리오에서 69% 성공률을 기록했다. 특히 동일 구조의 VLA가 순수 언어 지시만 받을 때 14%에 불과했던 점과 비교해, 세계 모델이 제공하는 시각적 서브골이 성능을 5배 이상 향상시켰음을 확인했다. 이는 시각적 목표가 물리적 제약을 직접 전달함으로써 행동 예측의 불확실성을 크게 감소시킨 결과로 해석된다. 또한 다중‑뷰와 물리적 일관성을 보장하는 목표 이미지 생성은 장기 계획 시 발생하는 영상 드리프트 문제를 회피하고, 데이터 효율성을 크게 높인다. 전체적으로 본 연구는 대규모 사전학습 세계 모델을 로봇 조작의 고수준 플래너로 활용하고, 시각적 서브골을 저수준 정책에 연결함으로써, 제한된 실제 데이터 환경에서도 강인한 OOD 일반화를 달성한 점이 가장 큰 공헌이다.


댓글 및 학술 토론

Loading comments...

의견 남기기