인간 영상으로 배우는 양손 정교 조작 DexImit
초록
DexImit은 단일 카메라로 촬영된 인간의 양손 조작 영상을 자동으로 재구성해 로봇용 4차원 손‑물체 궤적을 만든 뒤, 작업 분해·스케줄링, 힘‑폐쇄 기반 그립 합성, 모션 플래닝을 통해 물리적으로 타당한 로봇 데이터셋을 대규모로 생성한다. 데이터 증강까지 포함해 실제 로봇에 제로샷으로 적용할 수 있다.
상세 분석
DexImit은 인간 영상과 로봇 손 사이의 ‘구현 격차’를 네 단계 파이프라인으로 해소한다. 첫 번째 단계는 깊이 정보를 직접 요구하지 않으면서도 근사 메트릭 스케일을 확보하는 4D 재구성이다. 여기서는 손 크기라는 자연적인 스케일 프라이어를 이용해 추정된 깊이 맵을 정규화하고, MANO 기반 손 메쉬와 SAM3D‑기반 물체 메쉬를 정렬·렌더링‑정렬 과정을 반복해 손‑물체의 6D 포즈를 얻는다. 두 번째 단계는 비디오‑언어 모델(Qwen3‑VL)과 Grounded‑SAM2를 활용해 객체·손·테이블 마스크를 추출하고, 작업을 ‘프리그라스→그라스→모션→릴리즈’ 형태의 서브액션으로 분해한다. 여기서 제안된 Action‑Centric Scheduling 알고리즘은 임의의 시간 길이와 양손 동시성(동시, 순차, 비동기)을 지원하며, 우선순위 큐와 작업 큐를 이용해 각 로봇 손(embodiment)에 적절히 서브액션을 할당한다. 세 번째 단계는 힘‑폐쇄(Force‑Closure) 조건을 만족하는 그립을 합성하고, 키프레임 기반 모션 플래너를 통해 로봇 관절 궤적을 생성한다. 이때 MANO‑프롬프트와 물체의 물리적 속성을 결합해 실제 접촉력을 고려한다. 마지막 단계는 객체 위치·크기, 카메라 포즈, 시각 관측 등을 무작위 변형해 데이터 다양성을 높이고, 시뮬레이션‑실제 간 격차를 최소화한다. 전체 파이프라인은 깊이·카메라 파라미터가 전혀 없는 ‘인‑더‑와일드’ 영상에서도 동작하도록 설계돼, 인터넷 영상이나 텍스트‑투‑비디오 생성 모델의 출력까지 활용 가능하게 만든다. 실험에서는 사과 절단, 음료 제조, 컵 쌓기 등 정교·도구·장기 작업을 포함한 10여 개 도메인에서 정책을 학습시킨 뒤, 실제 로봇에 제로샷 적용했을 때 성공률이 70 % 이상을 기록했다. 이는 기존의 인간 영상 → 로봇 데이터 변환 방식이 요구하던 정확한 깊이·카메라 보정 없이도 물리적으로 일관된 데이터를 만들 수 있음을 입증한다. 또한, 스케줄링 알고리즘이 양손 협동을 자연스럽게 모델링함으로써, 기존 단일 손 또는 고정된 동시성 모델보다 복잡한 장기 작업을 효율적으로 처리한다는 점이 큰 강점이다.
댓글 및 학술 토론
Loading comments...
의견 남기기