실시간 보행 기반 강화학습을 통한 휴머노이드 로봇 보행 설계
초록
본 논문은 3차원 휴머노이드 로봇을 두 개의 2차원 하이브리드 인버티드 펜듈럼(H‑LIP) 모델로 분해하고, 이를 이용해 실시간 보행 플래너를 구현한다. 플래너가 생성한 목표 관절 궤적을 보상 함수에 포함시켜 강화학습(RL) 에이전트가 주기적인 양발 보행을 빠르게 습득하도록 설계하였다. 시뮬레이션 및 실험 결과, 제안 방법이 기존 RL 기반 보행 학습보다 학습 시간과 보행 품질 모두에서 우수함을 보였다.
상세 분석
본 연구는 휴머노이드 로봇 보행 제어 분야에서 모델 기반 설계와 데이터‑드리븐 학습을 효과적으로 결합한 점이 가장 큰 강점이다. 3D 로봇을 X‑축과 Y‑축 두 개의 평면 모델로 분해하고, 각각을 하이브리드 인버티드 펜듈럼(H‑LIP)으로 근사함으로써 고차원 관절 공간을 저차원 선형 시스템으로 축소한다. 이 접근은 H‑LIP가 갖는 폐쇄형 해석식(공중 단계와 지면 접촉 단계의 연속·이산 전이)을 그대로 활용해 실시간으로 보행 궤적을 생성할 수 있게 한다는 점에서 혁신적이다. 특히, 보행 주기(T_SSP)와 보폭(L)을 직접 제어 변수로 두고, 베지어 다항식 파라미터를 실시간으로 업데이트하는 방법은 기존의 오프라인 최적화 기반 플래너와 달리 학습 중에도 동적으로 목표 궤적을 제공한다.
보상 설계 측면에서는 세 가지 보상 함수를 조합한다. 첫째, 주기성 보상은 상태 전이 후 스윙 다리와 지지 다리의 교환이 정확히 이루어졌는지를 체크해 보행의 리듬을 강제한다. 둘째, 궤적 추적 보상은 실시간 플래너가 제공한 관절 궤적과 에이전트의 실제 행동 사이의 오차를 최소화하도록 설계되어, 모델 기반 목표와 학습 기반 정책 사이의 갭을 메운다. 셋째, 시간 효율성 보상은 스윙 기간을 최소화하면서도 안정성을 유지하도록 유도한다. 이러한 다목적 보상 구성은 학습 초기에 급격한 보상 스파이크를 방지하고, 로컬 최적에 빠지는 현상을 완화한다는 점에서 실용적이다.
실험에서는 시뮬레이션과 실제 로봇(12 자유도 하위 모델) 모두에서 학습 속도와 보행 품질을 기존 RL 기반 보행(예: 전통적인 보상 설계, 순수 모델‑프리 RL)과 비교하였다. 결과는 제안 프레임워크가 학습 에피소드 수를 약 40 % 감소시키고, 보행 중 발 착지 오류와 진동을 현저히 줄였음을 보여준다. 다만, 논문에서 제시된 H‑LIP 근사는 발목·발바닥 복합 접촉을 단순화하고, 보행 중 외부 충격(예: 불규칙한 지면) 에 대한 강인성을 충분히 검증하지 못했다. 또한, 실시간 플래너가 40 Hz 이하의 제어 주기로 동작한다는 가정은 고속 동적 보행(예: 달리기)에는 한계가 있을 수 있다. 향후 연구에서는 외부 교란에 대한 적응형 플래너와, 다관절 연동을 고려한 비선형 보상 함수를 도입해 범용성을 확대할 필요가 있다.
전반적으로, 모델 기반 H‑LIP 근사와 실시간 보행 플래너를 강화학습 보상에 직접 통합한 접근은 휴머노이드 보행 학습의 샘플 효율성을 크게 향상시킨다. 이는 로봇 공학에서 “모델‑기반 + 모델‑프리” 하이브리드 전략이 실제 시스템에 적용될 수 있음을 실증적으로 보여주는 중요한 사례라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기