역사 기반 트랜스포머로 구현한 범용 손 조작 정책

역사 기반 트랜스포머로 구현한 범용 손 조작 정책
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DexFormer는 과거 관측을 입력으로 하는 트랜스포머 구조를 이용해 손의 형태와 동역학을 실시간으로 추론한다. 다양한 절차적 손 모델을 학습함으로써 하나의 정책이 Leap Hand, Allegro Hand, Rapid Hand 등 서로 다른 형태의 로봇 손에 대해 제로샷 전이와 안정적인 잡기 동작을 수행한다.

상세 분석

본 논문은 고자유도(DoF) 로봇 손과 팔을 제어하는 데 있어 가장 큰 난관인 ‘구현체(embodiment) 다양성’ 문제를 근본적으로 해결하고자 한다. 기존 연구는 보통 손마다 별도의 정책을 학습하거나, 손마다 다른 디코더 헤드를 추가하는 방식으로 접근했으며, 이는 학습 비용과 실시간 적응성을 크게 저하시킨다. DexFormer는 이러한 한계를 넘어, 하나의 통합 정책이 다양한 손 형태에 자동으로 적응하도록 설계되었다. 핵심 아이디어는 ‘역사 기반(history‑conditioned)’ 입력이다. 현재 시점의 관측만으로는 손의 기구학·동역학을 완전히 파악하기 어렵지만, 일정 길이(H)의 과거 관측·행동 시퀀스를 트랜스포머에 입력하면, 자기‑주의 메커니즘이 과거의 접촉 변화, 관절 움직임, 힘 센서 데이터를 종합해 손의 구조적 특성을 암묵적으로 인코딩한다. 이때 causal mask를 사용해 미래 정보를 차단함으로써 실제 온라인 제어와 동일한 조건을 유지한다.

정책은 공유 액션 스페이스를 채택한다. 모든 손을 ‘canonical’ D_F 차원의 손 관절 공간에 매핑하고, 손마다 실제 관절 수에 맞게 제로 패딩하거나 사용되지 않는 차원을 무시한다. 이렇게 하면 손마다 별도 출력 레이어를 설계할 필요 없이 하나의 MLP 액션 헤드가 모든 손에 대해 동일한 차원의 명령을 생성한다. 또한 액션 스무딩(λ 파라미터)을 도입해 급격한 관절 변화를 억제하고, 물리 시뮬레이션과 실제 로봇 간의 차이를 완화한다.

학습 단계에서는 절차적 형태 변형(p_morph)을 통해 수천 개의 손 모델을 생성하고, 이를 병렬 GPU 환경에서 동시에 롤아웃한다. 동일한 kinematic topology을 공유하는 손 변형은 같은 GPU에 배치하고, 서로 다른 canonical 손은 다른 GPU에 할당해 DDP(All‑reduce) 방식으로 파라미터를 동기화한다. 이렇게 하면 대규모 형태 다양성을 효율적으로 탐색하면서도 하나의 정책 파라미터 집합을 유지할 수 있다.

보상 설계는 5가지 요소(행동 평활성, 목표 접근, 손가락 접촉, 접촉 중/비접촉 중 자세 추적)를 조합해 잡기 성공률과 안정성을 동시에 최적화한다. 특히 접촉력 임계값(τ)과 쿼터니언 거리(d_q)를 이용해 물체와 손의 정밀한 정렬을 유도한다.

실험 결과는 두 축면에서 의미 있게 나타난다. 1) 시뮬레이션 내에서 GRU/LSTM 기반 베이스라인 대비 잡기 성공률이 1218% 상승했으며, 특히 복잡한 비대칭 물체와 빠른 동적 교환 상황에서 우수한 성능을 보였다. 2) 제로샷 전이 테스트에서 Leap Hand, Allegro Hand, Rapid Hand에 대해 별도 재학습 없이도 85% 이상 성공률을 기록, 기존 방법이 필요로 하는 별도 매핑 혹은 추가 파라미터 튜닝을 완전히 대체한다. 또한, 히스토리 윈도우 길이를 0(현재 관측만)에서 510으로 늘릴 경우 정책의 적응 속도가 현저히 빨라지는 것을 확인했으며, 이는 ‘역사 기반’ 접근법이 손의 동적 특성을 빠르게 파악한다는 증거이다.

전체적으로 DexFormer는 (1) 형태와 동역학을 암묵적으로 추론하는 트랜스포머 기반 구조, (2) 공유 액션 스페이스와 제로 패딩을 통한 손 간 인터페이스 통합, (3) 대규모 절차적 형태 다양성 학습을 가능하게 하는 분산 GPU 파이프라인이라는 세 가지 혁신적 요소를 결합한다. 이로써 로봇 손 분야에서 ‘하나의 정책이 여러 손을 다루는’ 일반화 가능성을 실증적으로 제시했으며, 향후 실제 산업 현장이나 서비스 로봇에 바로 적용 가능한 스케일러블한 솔루션으로 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기