RGB 인간 비디오만으로 다중손가락 로봇 조작 정책 학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 착용형 센서나 로봇 데이터 없이 순수 RGB 인간 비디오에서 3D 손‑물체 궤적을 복원하고, 이를 로봇 손에 재타깃팅해 다중손가락 로봇의 잡기·조작 정책을 학습하는 프레임워크 VIDEOMANIP을 제안한다. 손‑물체 접촉 최적화와 시연 합성(DemoGen) 기법을 통해 하나의 비디오로부터 다채로운 학습 데이터를 생성하고, 시뮬레이션에서 70.25 %·실제 로봇에서는 62.86 %의 성공률을 달성한다.

상세 분석

VIDEOMANIP은 크게 세 단계로 구성된다. 첫 번째 단계는 최신 3D 비전 모델을 활용해 단일 RGB 영상에서 인간 손의 메쉬와 물체 메쉬, 그리고 물체의 6D 포즈를 복원하는 것이다. 여기서는 MoGe‑2가 예측한 메트릭 깊이와 카메라 내적을 이용해 손‑물체 좌표계를 일관되게 정의하고, SAM 2와 MeshyAI를 결합해 물체 마스크와 이미지‑투‑메쉬 변환을 수행한다. 물체의 실제 크기가 알려지지 않은 점을 보완하기 위해 GPT‑4.1에 물체 종류를 질의해 대략적인 치수를 얻고, 후보 스케일을 FoundationPose와 렌더링 오류 최소화 기준으로 정밀 조정한다. 손 메쉬는 HaMeR를 사용해 저차원 파라미터(θ, β)로 복원하고, MoGe‑2의 깊이 정보를 통해 손 깊이를 보정한다. 이후 로봇 손 URDF와 매핑된 키포인트를 최소화하는 최적화로 인간 손 포즈를 로봇 관절값 q로 재타깃한다.

두 번째 단계는 in‑scene 영상과 in‑the‑wild 영상의 좌표 정렬이다. 전자는 카메라‑로봇 외부 캘리브레이션이 주어져 world T_cam 변환을 적용하지만, 후자는 카메라 방향이 미지이다. 이를 해결하기 위해 GeoCalib을 사용해 영상의 중력 방향을 추정하고, 중력과 −z축을 일치시키는 회전 grav R_cam을 적용한다. 완전한 world T_cam이 아니더라도 중력 정렬만으로도 두 종류의 데이터가 동일한 평면 기준에 놓이게 된다.

세 번째 단계는 복원된 로봇‑물체 궤적을 실제 학습에 적합하도록 정제하고 확대하는 과정이다. 복원 오류로 인한 손‑물체 간 침투나 비현실적 접촉을 방지하기 위해 차분식 손‑물체 접촉 최적화를 수행한다. 여기서는 접촉 맵을 예측하고, 손 메쉬와 물체 메쉬 사이의 거리와 법선 일치를 최소화함으로써 물리적으로 타당한 그립을 만든다. 또한 DemoGen을 차용해 하나의 비디오에서 추출한 기본 궤적을 여러 변형으로 합성한다. 구체적으로는 그립 단계(t₁→t₂)와 조작 단계(t₂→T)를 분리하고, 각 단계별로 포인트 클라우드 기반 정책을 학습한다. 합성된 시연은 물체 위치, 회전, 손 자세를 무작위로 변형해 데이터 다양성을 크게 확대한다.

실험은 두 축으로 진행된다. 시뮬레이션에서는 Inspire Hand를 사용해 20종 물체에 대해 70.25 %의 잡기 성공률을 기록했으며, 이는 기존 착용형 장비 기반 재타깃팅 대비 15 % 이상 향상된 수치다. 실제 로봇 실험에서는 LEAP Hand를 이용해 7개의 조작 과제(인‑씬 3개, 인‑와일드 4개)에서 평균 62.86 % 성공률을 달성했다. 특히 인‑와일드 영상에서 얻은 정책이 인‑씬 정책과 비슷한 성능을 보이며, 데이터 수집 비용이 현저히 낮아짐을 입증한다.

핵심 기여는 (1) 착용형 센서·로봇 데이터 없이 RGB 비디오만으로 3D 손‑물체 궤적을 복원하는 파이프라인, (2) 물체 스케일 추정에 언어 모델을 활용한 혁신적 접근, (3) 접촉 최적화와 시연 합성으로 데이터 효율성을 극대화한 학습 프레임워크이다. 이 연구는 대규모 인터넷 비디오를 활용해 다중손가락 로봇 조작을 스케일링할 수 있는 길을 열며, 향후 비전‑기반 로봇 학습의 패러다임을 전환시킬 가능성을 보여준다.

RGB 인간 비디오만으로 다중손가락 로봇 조작 정책 학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기