클래식 균형 원리를 강화학습에 통합한 인간형 로봇 회복 제어
초록
본 논문은 캡처 포인트, 무게중심(CoM) 상태, 중심 모멘텀 등 전통적인 균형 지표를 강화학습(RL) 정책의 비대칭 크리틱에 특권 입력으로 활용하고, 보상 함수를 해당 지표에 직접 연결한다. 배우(actor)는 오직 관절 위치·속도와 관성계 센서만을 이용해 하드웨어에 바로 전이 가능하도록 설계했으며, 하나의 정책으로 작은 교란에 대한 발목·엉덩이 전략부터 큰 충격에 대한 보폭 조정, 손·팔·무릎을 이용한 다중 접촉 회복까지 포괄한다. 시뮬레이션에서 93.4%의 회복 성공률을 달성하고, MuJoCo로의 시뮬‑투‑시뮬 전이와 실제 Unitree H1‑2 로봇에 대한 제로샷 실험에서도 유사한 성능을 보였다.
상세 분석
이 연구는 인간형 로봇 회복 문제를 “균형 인식이 없는 순수 보상 기반 RL”에서 “균형 인식을 명시적으로 제공하는 구조화된 RL”로 전환한다는 점에서 의미가 크다. 기존 RL 접근법은 보통 ‘일어서기’ 혹은 ‘넘어짐 방지’라는 최종 목표만을 보상으로 제시하고, 균형 상태를 직접 관측하거나 평가하지 않는다. 그 결과 크리틱은 보상 신호만으로 회복 가능성을 추론해야 하며, 이는 훈련 환경이 제한적일 때 일반화가 어려워지는 원인이 된다.
논문은 세 가지 고전적인 균형 지표—캡처 포인트(Capture Point), 무게중심(CoM) 위치·속도·가속도, 그리고 전체 몸통의 선형·각 모멘텀—를 훈련 단계에서만 이용 가능한 특권 정보(privileged information)로 크리틱에 제공한다. 이는 비대칭(actor‑critic) 설계와 결합돼, 배우는 실제 로봇에 탑재될 때는 관절 센서와 IMU만으로 구성된 관측치만을 사용한다. 이렇게 하면 시뮬레이션‑투‑실제 전이 시 발생할 수 있는 센서 노이즈·추정 오차에 강인한 정책을 얻을 수 있다.
보상 설계는 물리적 의미를 갖는 세 그룹으로 나뉜다. 첫 번째 그룹은 수직 상승을 유도하는 ‘높이 트래킹’와 ‘수직 모멘텀’ 보상으로, 로봇이 바닥에서 목표 높이까지 부드럽게 올라가도록 연속적인 그래디언트를 제공한다. 두 번째 그룹은 정적·동적 안정성을 직접 측정한다. CoM이 지지 다각형(C) 내부에 있으면 가우시안 형태의 보상을 주고, 캡처 포인트가 발 지지 다각형(C_feet) 밖에 있으면 급격히 패널티를 부여한다. 이는 로봇이 현재는 안정해 보이더라도 미래에 발을 디딜 필요가 있는 상황을 사전에 인식하게 만든다. 세 번째 그룹은 토크·관절 제한·액션 변화율 등에 대한 안전 제약을 포함해 하드웨어 손상을 방지한다.
학습은 Isaac Lab에서 PPO 기반 비대칭 크리틱으로 50 000 이터레이션, 24 스텝 롤아웃을 사용해 진행됐으며, 훈련 중에는 10–40 ms의 명령 지연과 관측 노이즈를 삽입해 실제 로봇 환경을 모사했다. 커리큘럼은 ‘낙하 유도 → 일어서기’ 순환을 반복해 다양한 초기 자세와 충격 크기를 경험하도록 설계했으며, 이는 정책이 발목·엉덩이 전략, 보폭 조정, 손·팔·무릎을 이용한 다중 접촉 회복을 자연스럽게 습득하게 만든다.
실험 결과, 특권 입력과 캡처 포인트 기반 보상이 없을 경우 정책이 바닥에서 일어나지 못하고 100% 실패하는 반면, 제안된 구조에서는 93.4%의 성공률을 기록했다. 또한 MuJoCo로의 시뮬‑투‑시뮬 전이와 실제 Unitree H1‑2 로봇에 대한 10회 제로샷 테스트에서도 평균 9.2회의 성공을 보이며, 시뮬레이션과 실제 환경 사이의 격차를 크게 줄였다. 이러한 결과는 고전적인 균형 모델을 학습 신호에 직접 통합함으로써, 복잡하고 비주기적인 회복 동작을 하나의 정책으로 포괄할 수 있음을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기