자율 놀이로 배우는 로봇 세계 모델링
초록
**
PlayWorld는 인간 시연이 아닌 로봇의 자율 놀이 데이터를 활용해 고품질 액션‑조건 비디오 세계 모델을 학습한다. 다양한 접촉 상황을 자동으로 수집·확장함으로써 물리적으로 일관된 예측을 제공하고, 정책 평가와 강화학습에 적용해 실제 성공률을 크게 향상시킨다.
**
상세 분석
**
PlayWorld는 로봇 조작 분야에서 물리적 일관성을 갖춘 비디오 기반 세계 모델이 부족하다는 문제를 데이터 중심으로 해결한다. 기존 연구는 성공적인 인간 시연에 편향된 데이터셋에 의존해 접촉 복잡도가 높은 상황을 충분히 학습하지 못했으며, 이는 모델이 실제 정책 실행 시 급격히 오류가 누적되는 원인이었다. 저자들은 이러한 한계를 극복하기 위해 ‘자율 놀이(autonomous play)’라는 새로운 데이터 수집 패러다임을 도입한다. 로봇은 비전‑언어 모델(VLM)로부터 장면에 맞는 자연어 명령을 생성하고, 이를 비전‑언어‑액션(VLA) 정책이 실행한다. 명령은 의도적으로 동사·대상 변형을 포함해 다양성을 확보하고, 안전 필터와 자동 리셋 메커니즘을 통해 인간 개입 없이 장시간 연속 수집이 가능하도록 설계되었다.
수집된 데이터는 다중 카메라 뷰(오버헤드·손목)와 행동 시퀀스를 포함하며, 이는 물체의 위치·형태·변형 정보를 풍부하게 제공한다. 모델 아키텍처는 사전 학습된 Stable Video Diffusion(SVD) 백본에 프레임‑별 행동 조건을 삽입해 움직임과 외관을 분리한다. 다중 뷰 예측을 동시에 학습함으로써 관측 제한을 완화하고, 확률적 디퓨전 손실을 최소화한다. 데이터의 장기적 불균형(빈번한 자유공간 전이 vs. 드문 접촉 전이)을 해결하기 위해 자동 난이도 평가 기반 커리큘럼 학습을 적용, 초기에는 쉬운 전이를, 이후 점진적으로 복잡하고 희귀한 접촉 상황을 학습한다.
실험에서는 인간 시연 기반 모델 대비 접촉‑풍부한 시나리오에서 물리적 일관성 지표가 30 % 이상 개선되었으며, 실패 예측 정확도가 40 % 향상되었다. 특히, 학습된 세계 모델을 이용해 정책을 시뮬레이션하고 강화학습으로 미세조정한 결과, 실제 로봇에서 성공률이 65 % 상승했다. 데이터 스케일링 실험에서도 5배 규모까지 성능이 지속적으로 상승하는 모습을 보였는데, 이는 인간 데이터가 포화점에 도달한 반면 자율 놀이 데이터는 여전히 새로운 상태‑행동 조합을 제공하기 때문이다.
한계점으로는 현재 VLA 정책이 명령 변형에 과도히 민감해 일부 비효율적인 움직임을 생성할 수 있으며, 안전 필터가 보수적이라 탐색 범위가 제한될 가능성이 있다. 또한, 디퓨전 기반 비디오 모델은 고해상도 장면에서 연산 비용이 크게 증가해 실시간 적용에 제약이 있다. 향후 연구에서는 보다 견고한 언어‑액션 매핑, 효율적인 멀티‑스케일 디퓨전 구조, 그리고 시뮬레이션‑실제 간 도메인 적응 기법을 결합해 실제 산업 현장에 적용 가능한 전천후 로봇 세계 모델을 구축할 수 있을 것이다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기