대규모 인간 시점 데이터로 손재주 로봇 조작 확장
초록
EgoScale는 20,854시간 규모의 이고시적 인간 영상 데이터를 활용해 Vision‑Language‑Action 모델을 사전학습하고, 손목 움직임과 고도 자유도 손 관절을 정밀히 지도한다. 로그‑선형 스케일링 법칙을 발견해 데이터 양이 늘어날수록 검증 손실이 감소하고, 이 손실이 실제 로봇의 성공률과 강하게 상관됨을 입증한다. 이후 소량의 인간‑로봇 정렬 데이터를 이용한 중간 학습을 거쳐 22‑DoF 손을 가진 로봇에서 54 % 향상된 성공률을 달성했으며, 저‑DoF 로봇에도 전이 가능함을 보였다.
상세 분석
EgoScale 논문은 인간 행동 데이터를 로봇 조작 학습에 활용하는 방법을 두 단계로 체계화한다. 첫 번째 단계는 20,854시간에 달하는 방대한 이고시적 영상 데이터를 이용해 Vision‑Language‑Action(VLA) 모델을 사전학습하는데, 여기서 핵심은 손목의 상대적 움직임(ΔW)과 21개의 손 키포인트를 22‑DoF 로봇 손 관절 공간으로 매핑한 고정밀 행동 표현이다. 이러한 행동 표현은 카메라 전역 움직임에 독립적이며, 인간과 로봇 모두에게 동일하게 적용될 수 있어 구현상의 embodiment gap을 크게 줄인다.
데이터 규모와 검증 손실 사이에 로그‑선형 관계가 존재한다는 스케일링 법칙을 실험적으로 확인했으며, 검증 손실이 낮을수록 실제 로봇의 장기‑시간 복합 조작 성공률이 높아지는 상관관계를 제시한다. 이는 인간 데이터가 단순히 양이 많아지는 것이 아니라, 행동 표현의 질이 로봇 제어에 직접적인 예측력을 제공한다는 강력한 증거다.
두 번째 단계인 ‘mid‑training’에서는 인간과 로봇이 동일한 테이블톱 작업 환경에서 촬영된 50시간(인간 44시간, 로봇 4시간) 데이터를 사용한다. 이 데이터는 카메라 시점, 손목 트래커, Manus 장갑 등 센서 구성이 로봇과 일치하도록 설계돼, 사전학습된 VLA 모델이 로봇의 proprioception과 joint command에 정확히 정렬되도록 한다. 여기서 사용된 가벼운 MLP 어댑터는 다양한 로봇(예: Sharpa 22‑DoF 손, Unitree G1 3‑finger 손)에도 손쉽게 적용 가능하도록 설계돼, embodiment‑agnostic한 모터 프라이어를 제공한다.
실험 결과는 다섯 개의 복합 조작 과제(주사기 주입, 과일 집기, 셔츠 접기, 병 풀기, 옷 접기)에서 사전학습 없이 처음부터 학습한 베이스라인 대비 평균 54 %의 성공률 향상을 보여준다. 특히, 단일 로봇 시연(One‑Shot)만으로도 셔츠 접기에서 88 % 성공률을 달성했으며, 저‑DoF 로봇에서도 30 % 이상의 절대 향상을 기록했다. 이는 대규모 인간 데이터가 로봇 학습 효율을 크게 증폭시키며, 소량의 정렬 데이터만으로도 빠른 태스크 적응이 가능함을 의미한다.
또한, 인간 행동을 wrist‑level motion과 고 DoF hand articulation으로 직접 지도함으로써, 단순 시각 특징에 의존하는 기존 방법보다 물리적 의미가 풍부한 표현을 학습한다. 이는 로봇이 새로운 물체나 환경에 직면했을 때도 인간 행동에서 추출된 일반화 가능한 운동 원리를 활용할 수 있게 한다.
전체적으로 EgoScale는 (1) 대규모 인간 데이터의 스케일링 법칙을 정량화, (2) 행동 표현을 정밀히 정의해 인간‑로봇 간의 공통 좌표계를 구축, (3) 소량의 정렬 데이터로 빠른 도메인 적응을 가능케 하는 세 가지 핵심 기여를 제공한다. 향후 연구에서는 더욱 다양한 로봇 형태와 실시간 언어 명령을 결합해, 인간‑로봇 협업 및 자율 학습 시스템으로 확장할 여지가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기