CHIP 인간형 로봇 적응형 컴플라이언스 제어
초록
CHIP은 인간형 로봇의 키포인트 트래킹 프레임워크에 뒤돌아보는 교란(히스토리 퍼터베이션) 방식을 적용해, 별도 데이터 증강이나 보상 튜닝 없이도 엔드 이펙터의 강성을 연속적으로 조절할 수 있는 플러그‑인 모듈이다. 이를 통해 일반적인 모션 트래킹 정책이 달리기·백플립 같은 고속 동작을 유지하면서도 물체 밀기, 닦기, 문 열기 등 다양한 힘 제어 작업을 수행한다.
상세 분석
CHIP의 핵심 아이디어는 “참조 모션을 그대로 유지하고, 교란 힘에 대한 히스토리 목표를 관측에만 반영한다”는 점이다. 기존 방법들은 교란을 반영하기 위해 원본 트래킹 목표를 변형하거나, 전체 키프레임을 재생성하는 복잡한 파이프라인을 필요로 했다. 이러한 접근은 동적 스킬(예: 달리기)에서 kinematic·dynamic 제약을 만족시키기 어렵고, 보상 설계와 데이터 증강에 큰 비용을 초래한다. CHIP은 교란 힘 f 를 무작위 방향·시간으로 가하고, 목표 g 에서 k·f 를 빼는 형태의 히스토리 목표 g_hind = g – k·f 를 정책에 입력한다. 보상은 원본 목표 g 와 현재 엔드 이펙터 위치 x_eef 사이의 거리 기반으로 그대로 사용한다. 즉, 정책은 “원래 목표가 교란에 의해 이동한 결과”를 관측하고, 이를 보정해 원래 목표를 달성하도록 학습한다.
이 설계는 세 가지 장점을 제공한다. 첫째, 관측 공간에서만 교란을 반영하므로 온라인 학습 중에도 간단히 적용할 수 있다. 둘째, 정책은 언제나 원본 모션 분포에 맞는 행동을 장려받아 자연스러운 움직임을 유지한다. 셋째, 히스토리 목표는 원본 데이터와 교란 데이터가 혼합된 형태이므로, 테스트 시 외부 교란에 대한 강인성을 크게 향상시킨다.
학습 과정에서는 PPO 기반의 액터‑크리틱을 사용하고, 크리틱에게는 실제 교란 힘을 특권 관측으로 제공해 외부 힘에 대한 민감도를 높인다. 또한 10‑스텝의 proprioceptive 히스토리와 과거 행동을 함께 입력해, 관측만으로도 교란을 추정하도록 만든다. 테스트 단계에서는 히스토리 목표와 특권 관측이 사라지고, 정책은 입력된 컴플라이언스 계수 k 만으로 원하는 강성을 실시간으로 조절한다.
CHIP은 로컬 3‑포인트(머리·양손) 트래킹과 글로벌 3‑포인트(머리·양손 위치) 트래킹 두 형태에 모두 적용 가능하다. 로컬 정책은 하위 몸통 자세를 kinematic planner 로 보완해 전신 동작을 유지하면서 손의 컴플라이언스를 제어한다. 글로벌 정책은 세계 좌표계에서 손과 머리 위치만을 목표로 하여, 다중 로봇 협업 시 각 로봇이 동일한 목표를 공유하고 힘을 조절해 대형 물체를 공동으로 운반하거나 잡을 수 있게 한다.
실험 결과, CHIP을 탑재한 일반적인 모션 트래킹 정책은 기존 대비 교란에 대한 응답이 부드럽고, 목표 힘을 정확히 생성하면서도 달리기·백플립·춤과 같은 고속 동작을 그대로 수행한다. 특히, 다중 로봇 협업, 화이트보드 닦기, 문 열기, 상자 운반 등 다양한 힘 제어 시나리오에서 성공률이 크게 향상되었으며, 별도의 보상 재설계나 데이터 증강 없이도 확장성이 검증되었다.
요약하면, CHIP은 “히스토리 퍼터베이션 + 원본 보상”이라는 간단하면서도 강력한 설계로, 인간형 로봇이 고속 동작과 정밀한 힘 제어를 동시에 달성하도록 하는 실용적인 컴플라이언스 모듈이다.
댓글 및 학술 토론
Loading comments...
의견 남기기