자원 제한 사족보행 로봇을 위한 강인 강화학습 기반 외부감지 보행 제어
초록
본 논문은 소형 사족보행 로봇에 제한된 연산 자원을 고려해, 실시간 고도 지도와 TOF·스테레오 깊이 센서를 활용한 외부감지 강화학습( RL ) 기반 보행 컨트롤러를 설계한다. 정책과 상태 추정기를 동시에 학습시켜 odometry 를 제공하고, VIO 와의 선택적 융합을 통해 계산량을 조절한다. 실험 결과 17.5 cm 단계는 완전 성공, 22.5 cm 단계는 80 % 성공률을 달성했으며, 전·후진 속도 1 m/s, 회전 속도 1.5 rad/s 를 정확히 추적한다.
상세 분석
이 연구는 소형 사족보행 로봇이 직면하는 두 가지 핵심 제약—제한된 프로세싱 파워와 거친 지형에서의 안정적 보행—을 동시에 해결하려는 시도이다. 먼저, 외부감지 정보를 활용해 2.5 D 고도 지도를 실시간으로 생성한다는 점이 눈에 띈다. 여기에는 전방에 장착된 Intel RealSense D435 스테레오 카메라와 후방에 배치된 PMD Flexx2 TOF 센서가 결합되어, 조명 변화나 반사면에 강인한 깊이 측정을 가능하게 한다. 고도 지도는 0.025 m 해상도의 5 × 5 m 그리드로 구현되고, GPU 가속 Kalman 필터를 이용해 30 Hz 로 업데이트된다.
핵심 알고리즘은 정책 네트워크와 상태 추정기 네트워크를 단일 단계에서 동시에 학습시키는 ‘동시 학습(concurrent training)’ 방식이다. 정책은 PPO 로 최적화되며, 관측값은 프로프리오셉티브 데이터(관절 위치·속도·IMU)와 고도 지도에서 추출한 77개의 높이 샘플, 그리고 10‑스텝(200 ms) 히스토리를 포함한다. 추정기는 시뮬레이션에서 얻은 특권 정보(실제 선형 속도·마찰·접촉 상태)를 지도 학습(supervised) 형태로 학습한다. 이렇게 얻어진 추정값은 EKF 로 IMU와 결합되어 odometry 로 활용되며, 필요 시 VIO(Visual‑Inertial Odometry)와도 융합한다. VIO 를 제외한 경우에도 TOF 센서가 제공하는 안정적인 깊이 정보 덕분에 odometry 드리프트를 어느 정도 보정할 수 있다.
시뮬레이션 환경에서는 마찰, 질량, 모터 강도 등을 광범위하게 랜덤화하고, 높이 샘플에 가우시안 노이즈와 7 s 주기로 재샘플링되는 바이어스를 주입해 현실 세계의 센서 노이즈와 드리프트를 모사한다. 보상 보상 항목은 속도 추적, 발 공중 시간, 관절 토크·가속도·위치 편차 등을 포함해, 로봇이 과도한 토크를 사용하거나 불안정한 자세를 취하지 않도록 설계되었다.
실험에서는 VIO 사용 여부와 TOF 센서 유무에 따른 성능 차이를 정량화했으며, 17.5 cm 높이의 계단을 완전 통과하고 22.5 cm 계단에서는 80 % 성공률을 기록했다. 이는 기존 외부감지 기반 RL 컨트롤러가 VIO에 과도하게 의존하던 점을 크게 개선한 결과라 할 수 있다. 또한 정책·추정기 모두 Intel NUC에서 1.83 ms 평균 추론 시간을 보이며, 20 ms 이하의 실시간 제어 주기를 충분히 만족한다.
전체적으로 이 논문은 (1) 최소한의 하드웨어 구성으로도 강인한 외부감지 보행을 구현하고, (2) 정책과 상태 추정기의 동시 학습을 통해 odometry 를 자체적으로 생성함으로써 VIO 의 필요성을 선택적으로 낮출 수 있다는 두 가지 혁신을 제시한다. 이는 소형 사족보행 로봇이 실시간으로 복잡한 지형을 탐색하면서도 전력·연산 자원을 절약할 수 있는 실용적인 길을 열어준다.
댓글 및 학술 토론
Loading comments...
의견 남기기