인간 영상 활용한 세계 모델로 정교한 손 조작 구현

읽는 시간: 2 분
...

📝 원문 정보

  • Title: World Models Can Leverage Human Videos for Dexterous Manipulation
  • ArXiv ID: 2512.13644
  • 발행일: 2025-12-15
  • 저자: Raktim Gautam Goswami, Amir Bar, David Fan, Tsung-Yen Yang, Gaoyue Zhou, Prashanth Krishnamurthy, Michael Rabbat, Farshad Khorrami, Yann LeCun

📝 초록 (Abstract)

정교한 손 조작은 손의 미세한 움직임이 물체와의 접촉을 통해 환경에 미치는 영향을 정확히 파악해야 하는 어려운 문제이다. 본 연구에서는 과거 상태와 손가락 동작을 입력으로 받아 다음 잠재 상태를 예측하는 Dexterous Manipulation World Model, 즉 DexWM을 제안한다. DexWM은 인간 및 비정밀 로봇 영상 900시간 이상을 활용해 학습함으로써 기존의 데이터 부족 문제를 극복한다. 시각적 특징만을 예측하는 기존 접근법이 미세한 손 동작을 충분히 표현하지 못한다는 점을 인식하고, 손의 자세를 정확히 유지하도록 하는 보조 손 일관성 손실(auxiliary hand consistency loss)을 도입하였다. 실험 결과, DexWM은 텍스트, 내비게이션, 전신 행동을 조건으로 하는 기존 세계 모델보다 미래 상태 예측 정확도가 높았다. 또한 Franka Panda 로봇에 Allegro 그리퍼를 장착해 적용했을 때, 잡기, 놓기, 도달 과제에서 Diffusion Policy 대비 평균 50 % 이상 높은 성능을 보이며, 보지 못한 조작 스킬에 대한 제로샷 일반화 능력도 입증하였다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
DexWM은 “세계 모델(World Model)”이라는 프레임워크를 정교한 손 조작에 적용한 최초의 시도 중 하나로, 기존 로봇 조작 연구가 직면한 두 가지 핵심 난제를 동시에 해결한다. 첫 번째는 데이터 스케일 문제이다. 정밀한 손가락 움직임을 포함한 실제 로봇 데이터는 수집 비용이 매우 높아 대규모 학습에 적합하지 않다. 저자들은 이를 보완하기 위해 인간이 수행한 일상적인 손 동작 영상과, 비정밀 로봇(예: 모바일 로봇)의 행동 영상을 900시간 이상 수집·통합하였다. 인간 영상은 손의 관절 각도와 접촉 변화를 풍부하게 포함하고 있어, 모델이 “손이 물체와 어떻게 상호작용하는가”에 대한 내재적 이해를 형성하도록 돕는다. 두 번째는 예측 대상의 표현 문제이다. 기존 세계 모델은 주로 이미지 피처나 포즈를 직접 예측했지만, 이러한 방식은 손가락 수준의 미세 변화를 포착하기에 한계가 있다. 이를 해결하기 위해 DexWM은 두 단계 예측 구조를 채택한다. 첫 번째 단계에서는 이미지 기반의 고차원 시각 …

📄 논문 본문 발췌 (Translation)

...(본문 내용이 길어 생략되었습니다. 사이트에서 전문을 확인해 주세요.)

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키