세계좌표 기반 인간형 로코 매니퓰레이션을 위한 계층형 강화학습 프레임워크 HiWET

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

HiWET은 고수준 정책이 세계 좌표계에서 목표 위치와 베이스 동작을 제시하고, 저수준 정책이 이를 실시간으로 관절 명령으로 변환하는 계층형 강화학습 구조이다. Kinematic Manifold Prior(KMP)를 통해 상체의 기구학적 유효 영역을 사전 학습하고, 잔차 학습 방식으로 탐색 차원을 크게 줄인다. 시뮬레이션과 실제 로봇 실험에서 12 mm 수준의 세계 좌표 추적 오차를 달성했으며, 별도 튜닝 없이 시뮬‑실 전이도 성공한다.

상세 분석

본 논문은 인간형 로봇의 장시간 조작 작업에서 발생하는 “베이스 드리프트” 문제를 근본적으로 해결하고자 세계 좌표계(end‑effector tracking)를 목표로 삼는다. 기존 연구들은 대부분 베이스 중심(body‑centric) 좌표에 명령을 매핑했기 때문에, 보행 중 발생하는 미세한 진동이나 누적 이동이 작업 공간에 직접적인 오차를 초래한다. HiWET은 이를 두 단계로 분리한다.

1️⃣ 고수준 정책(π_H) – 매 타임스텝 K마다 실행되며, 목표 세계 좌표(E)와 현재 베이스 위치를 입력으로 받아 세 가지 서브골프(베이스 속도 v_des^b, 몸통 높이 h_des, 로컬 EE 포즈 bT_des^L/R)를 출력한다. 이때 목표는 “어디로 가야 하는가”(global planning)와 “베이스를 어떻게 움직여야 하는가”(locomotion)라는 두 축을 동시에 고려한다.

2️⃣ 저수준 정책(π_L) – 고수준 명령을 받아 100 Hz 수준의 관절 목표(q_des)로 변환한다. 여기서 핵심은 **Kinematic Manifold Prior(KMP)**이다. KMP는 사전에 생성한 10 M개의 IK 데이터셋을 이용해, 주어진 로컬 EE 포즈와 허리 가중치 α에 대해 기구학적으로 유효한 상체 관절 구성을 예측한다. 정책은 KMP 출력에 잔차 Δq를 더하는 방식으로 학습함으로써, 탐색 공간을 상체 기구학 매니폴드에 제한하고, 불가능한 관절 조합을 자연스럽게 배제한다.

또한, History Encoder와 State Estimator를 도입해 과거 관측과 명령 시퀀스를 CNN 기반으로 압축하고, 관측되지 않는 베이스 선형 속도와 EE 포즈를 추정한다. 이는 부분 관측(partial observability) 상황에서도 안정적인 제어를 가능하게 한다.

학습 효율을 높이기 위해 Importance‑Sampled Command Dataset을 만든다. IK 재구성 오류와 매니퓰러빌리티 지수를 기준으로 가중치를 부여해, 실제 로봇이 도달 가능한 고품질 목표만을 중심으로 학습한다. 정책은 β 파라미터로 균일 샘플링과 중요도 샘플링을 혼합해 경계 상황에서도 견고하게 동작하도록 설계되었다.

실험에서는 시뮬레이션 환경에서 평균 12.4 mm의 세계 좌표 추적 오차를 기록했으며, 다양한 베이스 이동·높이 변화를 포함한 긴 궤적(정사각형·원형)에서도 안정적인 추적을 보였다. 특히, 저수준 정책만을 실제 로봇에 그대로 적용(zero‑shot)했을 때도 균형 붕괴 없이 목표를 따라 움직였으며, 다양한 팔 자세와 베이스 높이 조합에서도 동일한 성능을 유지했다.

이러한 설계는 (1) 세계 좌표계 일관성 확보, (2) 상·하체 협조를 명시적으로 모델링, (3) 기구학적 사전 지식을 활용한 탐색 차원 축소, (4) 시뮬‑실 전이의 용이성이라는 네 가지 핵심 장점을 제공한다. 향후 연구에서는 다중 로봇 협업, 비정형 지형 적응, 그리고 시각‑촉각 센서를 결합한 복합 인식‑제어 루프 확장이 기대된다.

세계좌표 기반 인간형 로코 매니퓰레이션을 위한 계층형 강화학습 프레임워크 HiWET

초록

상세 분석

댓글 및 학술 토론

의견 남기기