강인한 복구 제어기: 딥 강화학습 기반 사족보행 로봇 회복 시스템

본 논문은 모델프리 딥 강화학습을 이용해 사족보행 로봇 ANYmal의 낙하 복구 동작을 구현한다. 계층적 행동 기반 구조로 3개의 개별 행동(자기우측, 일어서기, 보행)과 행동 선택기를 신경망으로 학습시켜 시뮬레이션에서 바로 실제 로봇에 적용한다. 100회 이상 실험에서 97 % 이상의 성공률을 달성했으며, 복구 시간은 5 초 이하이다.

저자: Joonho Lee, Jemin Hwangbo, Marco Hutter

강인한 복구 제어기: 딥 강화학습 기반 사족보행 로봇 회복 시스템
본 논문은 사족보행 로봇이 낙하 후 빠르고 안정적으로 복구하는 문제를 해결하기 위해, 모델프리 딥 강화학습(Model‑free Deep Reinforcement Learning)을 기반으로 한 계층적 행동 기반(behavior‑based) 제어기를 설계하였다. 기존 연구들은 주로 사전에 정의된 휴리스틱 트래젝터리나 템플릿 모델에 의존했으며, 이는 복잡한 접촉 상황에서 비자연스러운 동작과 높은 엔지니어링 비용을 초래한다. 저자들은 이러한 한계를 극복하고자, 복구 과정을 ‘자기우측(self‑righting) → 일어서기(standing‑up) → 보행(locomotion)’이라는 세 개의 핵심 행동으로 분할하고, 각각을 독립적인 신경망 정책으로 학습시킨 뒤, 고수준 행동 선택기(behavior selector)가 현재 로봇 상태에 가장 적합한 행동을 실시간으로 선택하도록 설계하였다. **1. 시스템 아키텍처** 전체 제어 구조는 네 개의 신경망으로 구성된다. 세 개는 각각 자기우측, 일어서기, 보행을 담당하는 행동 정책이며, 네 번째는 행동 선택기이다. 행동 선택기는 이전 행동, 최근 관측, 명령(velocity command) 등을 입력으로 받아 현재 실행할 행동을 one‑hot 형태로 출력한다. 각 행동 정책은 12 DOF(관절) 제어를 목표로 하며, 2‑계층 피드포워드 네트워크(tanh 활성화)를 사용한다. 자기우측·일어서기 정책은 128 × 128 은닉 유닛, 보행 정책은 128 × 256 유닛을 갖는다. **2. 상태 및 관측 설계** 로봇의 기본 상태 추정은 Two State Implicit Filter(TSIF)와 IMU를 이용한다. TSIF는 발이 지면에 닿는 순간의 접촉 제약을 활용해 베이스 포즈와 트위스트를 추정하지만, 발이 미끄러지거나 모두 떠 있을 경우 선형 위치·속도는 드리프트한다. 따라서 자기우측 정책에서는 선형 위치·속도를 상태에서 제외하고, 중력 벡터(e_g)와 관절 위치·속도, 관절 목표와의 오차 등을 사용한다. 일어서기와 보행 정책은 베이스 높이(h) 추정이 필요하므로, 별도의 신경망 기반 높이 추정기(height estimator)를 학습시켜 실시간으로 보정한다. **3. 비용 함수 설계** 각 행동마다 목적에 맞는 비용 항목을 정의하고, 선형 결합 형태로 최적화한다. 비용 항목에는 orientation, joint‑position, joint‑velocity, joint‑acceleration, torque, impulse, slippage, foot clearance, self‑collision, action difference 등이 포함된다. 비용을 정규화하기 위해 로지스틱 커널 K(e|α)=−1/(e^{αe}+2+e^{−αe})를 사용했으며, 이를 통해 각 항목의 상대적 중요도를 쉽게 조정할 수 있었다. 특히 자기우측에서는 orientation 비용에 가장 큰 가중치를 부여해 로봇이 가능한 한 빨리 upright 자세를 회복하도록 유도하였다. **4. 학습 절차** 모든 정책은 Trust Region Policy Optimization(TRPO)와 Generalized Advantage Estimator(GAE)를 결합한 알고리즘으로 학습하였다. 시뮬레이션 환경은 데이터‑드리븐 액추에이터 모델과 고속 접촉 솔버를 사용해 현실과 유사한 물리적 상호작용을 재현한다. 각 행동은 서로 다른 초기 상태 분포와 종료 조건을 갖는다. - 자기우측: 0.5 m 높이에서 무작위 관절 각도로 낙하한 상태에서 시작, 시간 제한만 종료 조건. - 일어서기: 거의 upright한 초기 자세에서 시작, 목표는 완전 서 있는 자세, 시간 제한만 종료 조건. - 보행: 다변량 정규분포에서 샘플링된 스탠딩 자세를 초기 상태로, 목표는 주어진 3축 속도 명령을 추적. 학습 과정에서 커리큘럼 러닝을 적용해 초기에는 토크·가속·속도 페널티를 낮게 두고, 점진적으로 강화해 부드러운 움직임과 안전성을 동시에 확보하였다. **5. 행동 선택기와 높이 추정기** 행동 선택기는 사전 학습된 세 행동을 고정하고, 행동 전환 데이터를 이용해 별도로 학습한다. 입력으로는 현재 관측, 이전 행동, 이전 액션, 그리고 보행 명령이 포함된다. 선택기는 행동 전환 시 발생할 수 있는 불안정성을 최소화하도록 설계되었으며, 실제 로봇에 적용했을 때 부드러운 전환을 보였다. 높이 추정기는 베이스 높이(h) 추정이 불가능한 상황(예: 전부 발이 떠 있는 경우)에서도 관절 위치와 접촉 정보를 활용해 정확히 h를 예측한다. 이는 TSIF의 선형 위치·속도 드리프트 문제를 보완한다. **6. 실험 및 결과** ANYmal 로봇에 직접 적용한 실험에서는 100회 이상의 낙하 복구 시나리오를 수행했으며, 성공률은 97 % 이상, 평균 복구 시간은 4.8 초(5 초 이하)였다. 복구 과정 중 로봇이 발을 바닥에 고정하지 못하거나 관절이 교차하는 등 극단적인 상황에서도 정책이 적절히 행동을 전환해 성공적으로 일어서고 보행을 재개했다. 또한, 행동 선택기의 존재 덕분에 복구 동작이 자연스럽고 연속적인 움직임을 보였으며, 기존의 휴리스틱 기반 방법이 실패하던 코너 케이스에서도 높은 견고성을 입증하였다. **7. 의의와 향후 과제** 이 연구는 ‘모델프리 딥 RL + 계층적 행동 선택’이라는 구조가 복잡한 접촉·다중 목표 제어 문제에 강인함을 제공한다는 실증적 증거를 제시한다. 특히, 행동을 모듈화하고 고수준 선택기를 두는 설계는 학습 효율성을 크게 향상시키며, 각 모듈을 독립적으로 디버깅·업데이트할 수 있어 실용적인 로봇 시스템에 적용하기 용이하다. 향후 연구에서는 보다 다양한 환경(불규칙 지형, 동적 장애물)에서의 복구, 그리고 행동 선택기의 온라인 적응(continual learning) 등을 탐구함으로써 로봇의 자율성과 내구성을 한층 강화할 수 있을 것이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기