인간 영상 활용한 세계 모델로 정교한 손 조작 구현
읽는 시간: 2 분
...
📝 원문 정보
- Title: World Models Can Leverage Human Videos for Dexterous Manipulation
- ArXiv ID: 2512.13644
- 발행일: 2025-12-15
- 저자: Raktim Gautam Goswami, Amir Bar, David Fan, Tsung-Yen Yang, Gaoyue Zhou, Prashanth Krishnamurthy, Michael Rabbat, Farshad Khorrami, Yann LeCun
📝 초록 (Abstract)
정교한 손 조작은 손의 미세한 움직임이 물체와의 접촉을 통해 환경에 미치는 영향을 정확히 파악해야 하는 어려운 문제이다. 본 연구에서는 과거 상태와 손가락 동작을 입력으로 받아 다음 잠재 상태를 예측하는 Dexterous Manipulation World Model, 즉 DexWM을 제안한다. DexWM은 인간 및 비정밀 로봇 영상 900시간 이상을 활용해 학습함으로써 기존의 데이터 부족 문제를 극복한다. 시각적 특징만을 예측하는 기존 접근법이 미세한 손 동작을 충분히 표현하지 못한다는 점을 인식하고, 손의 자세를 정확히 유지하도록 하는 보조 손 일관성 손실(auxiliary hand consistency loss)을 도입하였다. 실험 결과, DexWM은 텍스트, 내비게이션, 전신 행동을 조건으로 하는 기존 세계 모델보다 미래 상태 예측 정확도가 높았다. 또한 Franka Panda 로봇에 Allegro 그리퍼를 장착해 적용했을 때, 잡기, 놓기, 도달 과제에서 Diffusion Policy 대비 평균 50 % 이상 높은 성능을 보이며, 보지 못한 조작 스킬에 대한 제로샷 일반화 능력도 입증하였다.💡 논문 핵심 해설 (Deep Analysis)
