통합 손 표현으로 다중 로봇 손 제어 구현

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다양한 형태의 로봇 손을 하나의 파라미터화된 정규화 URDF와 82개의 핵심 파라미터로 표현하는 “Canonical Representation”을 제안한다. 이를 통해 손의 형태·기구학을 학습 친화적인 벡터로 변환하고, 22 DoF의 통일된 액션 스페이스를 제공한다. VAE 기반 잠재 공간 학습, 손동작 재현, 그리고 손 형태를 조건으로 한 그리핑 정책을 통해 시뮬레이션·실험에서 3‑finger LEAP Hand에 대한 81.9%의 제로샷 성공률을 달성하였다.

상세 분석

이 연구는 현재 로봇 손 조작 정책이 특정 손 설계에 고정돼 있다는 근본적인 한계를 인식하고, 손의 형태와 동작을 통합적으로 기술할 수 있는 표준화된 표현 체계를 구축한다는 점에서 혁신적이다. 핵심 아이디어는 두 단계로 나뉜다. 첫째, 기존 URDF의 비정형성과 고유 좌표계 차이를 해소하기 위해 “Canonical URDF”를 정의한다. 여기서는 손바닥을 +x축, 엄지를 +y축, 나머지 손가락을 +z축으로 정렬하고, 각 관절의 로컬 축을 일관되게 지정한다. 이렇게 하면 서로 다른 손 모델 간에 좌표 변환 비용이 사라지고, 학습 알고리즘이 직접 파라미터를 입력받아도 의미 있는 기구학 정보를 유지한다.

둘째, 손의 기하학·기구학을 82개의 정량적 파라미터(예: 손가락 길이, 관절 범위, 캡슐형 링크 반경 등)로 압축한다. 파라미터 집합은 인간 손의 해부학적 구조를 기반으로 설계되었으며, 최대 5개의 손가락과 22 DoF까지 표현 가능하도록 확장성을 확보한다. 파라미터 → Canonical URDF → 원본 URDF 간의 양방향 자동 변환 파이프라인을 Jinja2 템플릿 엔진으로 구현해, 새로운 손 모델을 최소한의 수작업만으로 통합할 수 있다.

학습 측면에서는 이 파라미터 공간을 VAE에 입력해 잠재 벡터를 학습한다. 실험 결과, 잠재 공간에서 서로 다른 손 모델 사이를 선형 보간하면 물리적으로 일관된 형태 변이가 발생함을 확인했다. 이는 “형태-동작” 연관성을 내재화한 의미론적 임베딩이라 할 수 있다.

액션 스페이스 통합은 모든 손을 22 DoF 고정 구조로 매핑하고, 비활성 관절을 ‘더미 변수’로 처리함으로써 달성된다. 이렇게 하면 정책 네트워크는 손마다 다른 차원의 출력이 아니라 동일한 차원의 벡터를 출력하고, 실행 시 파라미터에 따라 비활성 관절을 마스킹한다. 결과적으로 하나의 정책이 여러 손에 동시에 적용될 수 있다.

실험은 세 가지 축으로 진행되었다. (1) VAE 잠재 공간 분석 – 형태 보간 시 시뮬레이션에서 충돌·자세 오류가 거의 없었다. (2) 그리핑 정책 재현 – 동일한 정책을 원본 URDF와 Canonical URDF에 적용했을 때 성공률 차이가 1% 이하로, 표준화가 동작 특성을 손상시키지 않음을 입증했다. (3) 제로샷 전이 – 100가지 이상의 LEAP Hand 변형을 학습한 뒤, 전혀 보지 못한 3‑finger 변형에 대해 81.9% 성공률을 기록했다. 실제 로봇 실험에서도 시뮬레이션과 일관된 성능을 보였다.

이러한 결과는 손 형태를 조건으로 하는 정책이 “형태-동작” 매핑을 일반화할 수 있음을 증명한다. 또한, 파라미터화된 표현이 데이터 효율성을 높이고, 다양한 손 데이터를 하나의 학습 파이프라인에 통합할 수 있는 기반을 제공한다. 다만, 현재 설계는 캡슐형 링크와 인간 손과 유사한 위계 구조에 최적화돼 있어, 완전히 다른 메커니즘(예: 소프트 로봇 손, 비인간형 그리퍼)에는 추가적인 확장이 필요할 수 있다.

통합 손 표현으로 다중 로봇 손 제어 구현

초록

상세 분석

댓글 및 학술 토론

의견 남기기