시각 없이 가능한 다지손 로봇 손가락 잡기 일축 힘 센서만으로 98% 성공

시각 없이 가능한 다지손 로봇 손가락 잡기 일축 힘 센서만으로 98% 성공
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 시각과 다축 촉각을 배제하고, 손가락 끝에 장착한 일축 힘 센서와 관절 위치·속도 정보만으로 다지손 로봇의 안정적인 물체 잡기를 구현한다. 강화학습 기반 교사 정책을 시뮬레이션에서 특권 관측으로 학습시킨 뒤, 이를 이용해 고품질 시연 데이터를 생성하고, 트랜스포머 구조의 학생 정책을 행동 복제(IL) 방식으로 증류한다. 실제 3‑손가락 9‑자유도 그리퍼에 적용했을 때 18종(내·외부 분포) 물체에 대해 98.3%의 성공률을 달성했으며, 도메인 랜덤화와 잡음 주입을 통해 시뮬‑실 전이와 일반화 능력을 확보하였다.

상세 분석

이 연구는 로봇 조작에서 “센서 최소화”라는 설계 철학을 명확히 제시한다. 기존의 고해상도 카메라·다축 촉각은 비용·내구성·통합 복잡도 측면에서 한계가 있었지만, 일축 힘 센서는 구조가 단순하고 저비용이며, 물리적 접촉 정보를 직접 제공한다는 점에서 매력적이다. 논문은 이러한 센서를 활용하기 위해 두 단계 학습 파이프라인을 설계했다. 첫 단계에서는 privileged observation(관절 위치·속도·물체 6‑DoF·3‑축 접촉력·힘 센서값 등 95 차원)을 입력으로 하는 교사 정책을 PPO 기반 강화학습으로 최적화한다. 보상 함수는 물체 높이와 평면 거리 감소를 장려하는 task reward, 세 손가락이 동시에 접촉했을 때만 활성화되는 binary incentive reward, 그리고 관절 제한·큰 액션·액션 변동을 억제하는 세 가지 penalty 로 구성된다. 특히, 일축 힘 피드백을 활용하도록 유도하는 incentive reward는 학생 정책이 실제 배치 시에도 동일한 센서만 사용하도록 학습 목표를 명확히 만든다.

두 번째 단계에서는 교사가 생성한 성공 시연 데이터를 이용해 트랜스포머 기반 학생 정책을 행동 복제한다. 트랜스포머는 시계열적인 관절·힘 센서 입력을 효율적으로 처리해 장기 의존성을 포착한다는 장점이 있다. 학생 정책은 오직 관절 각·속도와 일축 힘(총 12 차원)만을 관측으로 사용한다. 이를 통해 시뮬레이션에서의 복잡한 시각·다축 촉각 파이프라인을 완전히 배제하고, 실제 하드웨어에 바로 적용할 수 있다.

시뮬레이션 환경은 IsaacLab을 활용해 9 000개의 병렬 환경에서 18종(크기별 3 가지) 물체를 학습에 투입했으며, 도메인 랜덤화가 광범위하게 적용되었다. 초기 관절 오프셋, 물체 위치, 마찰계수·질량, 액추에이터 이득, 외부 교란력 등 다양한 파라미터를 무작위화함으로써 정책이 특정 모델 파라미터에 과도하게 의존하지 않도록 설계했다. 잡음은 관절 각에 0.005 rad, 힘 센서에 0.5 N의 가우시안 노이즈를 추가해 실제 센서 특성을 모사했다. 이러한 설정은 시뮬‑실 전이에서의 성능 저하를 최소화하고, 훈련되지 않은 물체(크기·형태가 다른 OOD)에도 높은 성공률을 보이는 원동력이 되었다.

실험 결과는 3‑손가락 그리퍼에 일축 힘 센서를 장착하고, 18개의 물체(6 개는 훈련 분포 내, 12 개는 외부 분포)로 테스트했을 때 전체 성공률 98.3%를 기록했다. 특히, 물체가 미끄러지거나 외부 힘이 가해지는 상황에서도 정책이 안정적으로 접촉을 유지하고, 물체를 들어올리는 동작을 수행했다. 이는 교사 정책이 설계한 보상 구조와 도메인 랜덤화가 충분히 강인한 행동을 학습하도록 만들었으며, 학생 정책이 이러한 행동을 효과적으로 압축했음을 의미한다.

이 논문의 주요 기여는 (1) 일축 힘 센서와 관절 proprioception만으로도 다지손 로봇의 복잡한 잡기 작업을 수행할 수 있음을 실증, (2) privileged observation 기반 교사‑학생 프레임워크를 활용해 부분 관측 정책을 효율적으로 학습시키는 방법을 제시, (3) 트랜스포머 기반 정책이 제한된 센서 입력에서도 장기적인 행동 계획을 수행할 수 있음을 입증, (4) 광범위한 도메인 랜덤화와 잡음 주입을 통해 시뮬‑실 전이와 OOD 일반화를 달성했다는 점이다. 앞으로는 더 많은 손가락 자유도, 다양한 물체 형상, 그리고 동적 작업(예: 물체 교환, 조립)으로 확장하는 것이 자연스러운 연구 방향이다.


댓글 및 학술 토론

Loading comments...

의견 남기기