HO그라스플로우: 손‑물체 상호작용을 활용한 다중 모드 SE(3) 그립 생성
초록
단일 RGB 이미지와 손‑물체 상호작용(HOI) 정보를 기반으로, 객체 모델 없이 6자유도 병렬 턱 그립을 다중 모드로 생성한다. 시각적 의미, 접촉 지도, 그리고 33가지 그립 분류 체계라는 세 가지 힌트를 결합하고, 흐름 매칭(Flow Matching) 기반의 SE(3) 디노이징 모델을 사용해 높은 성공률(>83%)을 달성한다.
상세 분석
본 논문은 인간 손 동작을 로봇 병렬 턱(Parallel‑Jaw) 그리퍼에 매핑하는 ‘핸드‑오브젝트(HO) 리타게팅’ 문제를 새로운 관점에서 접근한다. 기존 연구가 손‑손가락 쌍(thumb‑index)만을 이용해 핀치 형태로 제한된 반면, 저자는 인간 손의 풍부한 그립 분류 체계와 접촉 정보를 그대로 활용한다. 핵심 아이디어는 세 가지 보조 신호를 결합한 ‘그립 의도 임베딩’을 구성하는 것이다. 첫째, DINOv2와 같은 비전 파운데이션 모델을 이용해 RGB 이미지에서 객체‑무관한 시멘틱 특징을 추출한다. 둘째, WiLoR 기반의 단일 이미지 손 재구성을 통해 MANO 파라미터를 얻고, 이를 바탕으로 손 표면의 접촉 확률 맵을 예측한다. 셋째, 33개의 GRASP TAXONOMY에 기반한 분류기를 학습하고, 이를 코드북 형태의 연속적 prior와 결합한다. 이렇게 얻어진 임베딩은 SE(3) 공간에서 흐름 매칭(Flow Matching) 혹은 스코어 매칭(Score Matching) 기반의 디노이징 생성 모델에 조건부 입력으로 들어간다.
흐름 매칭 방식(HOGraspFlow)은 확률적 확산 과정 대신 deterministic한 ODE 흐름을 학습해, 노이즈 스케줄링에 따른 불안정성을 크게 감소시킨다. 이는 특히 회전 부분을 Lie algebra se(3) 상에서 처리함으로써, 회전·이동의 동시 최적화를 자연스럽게 수행한다. 또한, 생성 과정 중에 접촉 지도와 분류 prior를 미분 가능한 가이드로 삽입해, 물리적 타당성(충돌 회피, 힘 폐쇄)과 의미적 일관성을 동시에 만족한다.
실험에서는 두 가지 변형(HOGraspDiff, HOGraspFlow)을 비교했으며, 흐름 매칭이 더 높은 분포 충실도와 빠른 수렴 속도를 보였다. 특히 실제 로봇 실험에서 깊이 정보는 Z축 정렬용 ICP에만 사용해, 객체의 3D 모델 없이도 83% 이상의 성공률을 기록했다. 이는 기존의 객체‑조건부 그립 생성기가 필요로 하는 정밀한 3D 스캔이나 포즈 추정을 대체할 수 있음을 의미한다.
결과적으로, 본 연구는 (1) 시각적 의미와 손‑접촉 정보를 효과적으로 융합한 의도‑중심 임베딩, (2) SE(3) 흐름 매칭을 통한 다중 모드 그립 샘플링, (3) 객체‑불변성 및 실시간 적용 가능성을 동시에 달성한 점에서 로봇 학습 기반 조작 분야에 중요한 전진을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기