지각형 휴머노이드 파쿠르 동적 인간 기술 연쇄를 위한 모션 매칭

최근 휴머노이드 보행 연구는 다양한 지형에서 안정적인 걷기를 달성했지만, 인간 수준의 고동적 파쿠르와 같은 민첩하고 적응적인 움직임을 구현하는 데는 한계가 있다. 본 논문에서는 인간의 원시 동작을 모션 매칭 기반의 최근접 이웃 탐색으로 연결해 장시간의 키네마틱 궤적을 생성하고, 이를 재목표화하여 휴머노이드 로봇에 적용하는 모듈식 프레임워크인 Percepti

지각형 휴머노이드 파쿠르 동적 인간 기술 연쇄를 위한 모션 매칭

초록

최근 휴머노이드 보행 연구는 다양한 지형에서 안정적인 걷기를 달성했지만, 인간 수준의 고동적 파쿠르와 같은 민첩하고 적응적인 움직임을 구현하는 데는 한계가 있다. 본 논문에서는 인간의 원시 동작을 모션 매칭 기반의 최근접 이웃 탐색으로 연결해 장시간의 키네마틱 궤적을 생성하고, 이를 재목표화하여 휴머노이드 로봇에 적용하는 모듈식 프레임워크인 Perceptive Humanoid Parkour(PHP)를 제안한다. 구성된 동작 시퀀스는 부드러운 전이와 인간적인 유동성을 유지한다. 이어서, 이러한 복합 동작을 추적하도록 설계된 전문가 강화학습(RL) 정책들을 학습하고, DAgger와 RL을 결합한 지식 증류 과정을 통해 깊이 영상만을 입력으로 하는 단일 멀티스킬 학생 정책으로 압축한다. 깊이 기반 인식과 2D 속도 명령만으로 로봇은 장애물의 형태와 높이에 따라 뛰어넘기, 올라타기, 활공, 구르기 등 적절한 스킬을 선택·실행한다. Unitree G1 로봇을 이용한 실제 실험에서 1.25 m(로봇 높이의 96 %)에 달하는 높은 장애물 등반 및 다중 장애물 연속 통과를 성공시켰으며, 실시간 장애물 변동에도 폐쇄‑루프 적응을 보였다.

상세 요약

본 연구는 휴머노이드 로봇이 인간 수준의 파쿠르 동작을 수행하도록 하는 세 가지 핵심 기술을 통합한다. 첫 번째는 ‘모션 매칭’이라는 데이터‑구동 방식이다. 방대한 인간 모션 캡처 데이터베이스에서 각 프레임을 특징 벡터로 변환한 뒤, 현재 로봇 상태와 가장 유사한 프레임을 최근접 이웃 탐색으로 선택한다. 이렇게 선택된 원시 동작을 연속적으로 연결하면, 인간이 수행한 복합 기술(예: 달리며 점프 후 착지, 바로 뒤이어 회전)과 거의 동일한 궤적을 얻을 수 있다. 중요한 점은 이 과정이 ‘재목표화(retargeting)’를 포함한다는 것이다. 인간의 관절 길이와 로봇의 관절 구성을 매핑함으로써, 원본 동작의 동역학적 특성을 최대한 보존하면서도 로봇에 맞는 자세를 생성한다.

두 번째는 모션 매칭으로 만든 장기 궤적을 기반으로 한 ‘전문가 정책’ 학습이다. 각 복합 동작마다 강화학습(RL) 에이전트를 별도로 훈련시켜, 목표 궤적을 정확히 추적하도록 보상함으로써 고속·고관성 환경에서도 안정성을 확보한다. 여기서 사용된 보상 함수는 위치·속도 오차뿐 아니라 접지력, 관절 토크 제한 등을 포함해 실제 로봇 하드웨어의 물리적 제약을 반영한다.

세 번째는 다중 스킬을 하나의 ‘학생 정책’으로 압축하는 지식 증류 단계이다. DAgger(데이터 집합 증강)와 RL을 결합해, 전문가 정책이 선택한 행동을 깊이 이미지와 2D 속도 명령이라는 제한된 관측값으로부터 예측하도록 학습한다. 이때 깊이 센서는 장애물의 형태와 높이를 직접 측정하므로, 별도의 지도학습용 라벨이 필요 없다. 결과적으로 로봇은 실시간으로 주변 환경을 인식하고, 사전 정의된 스킬(스텝오버, 클라임, 볼트, 롤) 중 최적의 행동을 자동으로 선택한다.

실험에서는 Unitree G1을 사용했으며, 1.25 m 높이의 장애물을 성공적으로 등반했다는 점이 특히 주목할 만하다. 이는 로봇 전체 높이의 96 %에 해당하는 높이로, 기존 보행 기반 파쿠르 연구에서 다루던 0.5 m 이하 장애물과는 확연히 차별화된다. 또한 다중 장애물 코스를 연속으로 통과하면서, 코스 중간에 장애물이 이동하거나 높이가 변하는 상황에서도 즉각적인 재계획과 스킬 전환이 이루어졌다. 이는 모션 매칭 기반 궤적 생성이 단순히 사전 정의된 시퀀스를 재생하는 것이 아니라, 현재 관측에 따라 동적으로 재검색하고 전이 비용을 최소화한다는 점을 증명한다.

한계점으로는 현재 깊이 센서만을 사용하기 때문에 색상이나 텍스처 기반의 미세한 표면 특성을 구분하기 어렵다는 점, 그리고 모션 매칭 단계에서 고차원 특징 벡터의 검색 비용이 실시간성에 영향을 줄 수 있다는 점을 들 수 있다. 향후 연구에서는 멀티모달 센서 융합과 효율적인 근사 최근접 이웃 알고리즘(예: IVF, HNSW)을 도입해 인식 범위와 연산 속도를 동시에 개선할 계획이다. 또한 인간 모션 데이터의 다양성을 확대해, 더 복잡한 회전·공중 동작(예: 백플립, 스핀)까지 포함시키면 휴머노이드 파쿠르의 범위가 크게 확장될 것이다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...