사족 로봇의 장거리 이동 효율을 위한 개인 이동 플랫폼 활용
초록
본 논문은 사족 로봇이 세그웨이와 같은 개인 이동 플랫폼을 타고 이동하도록 학습시키는 강화학습 기반 방법(RL‑ATR)을 제안한다. 정책은 로봇의 자세 변화를 이용해 플랫폼을 기울여 속도와 회전 명령을 수행하고, 두 개의 상태 추정기가 비관성 프레임에서 관측되는 센서 데이터를 보정한다. 시뮬레이션 실험에서 다양한 로봇·플랫폼 조합에 대해 명령 추적 정확도와 에너지 소비가 크게 개선되었으며, 각 구성 요소의 기여도를 확인하기 위한 소거 실험도 수행하였다.
상세 분석
이 연구는 사족 로봇의 장거리 이동 효율성을 향상시키기 위해 ‘활동형 운송기 탑승(Active Transporter Riding)’이라는 새로운 모드를 도입한다는 점에서 혁신적이다. 기존의 다중 모드 설계는 휠이나 스케이트를 로봇 다리에 영구적으로 부착해 주행과 보행을 전환하도록 했지만, 하드웨어 비용 상승과 무게·구조 복잡성 증가라는 단점을 안고 있었다. 반면 본 논문은 외부 이동 플랫폼(세그웨이, 호버보드 등)을 ‘임시’로 활용함으로써 로봇 자체 구조를 최소화하고, 필요 시에만 고속·저전력 이동을 가능하게 한다.
핵심 기술은 세 부분으로 나뉜다. 첫째, 플랫폼의 동역학을 고려한 정책 네트워크는 로봇의 관절 변위(Δq)를 출력하고, 이를 PD 제어기로 변환해 토크를 생성한다. 로봇은 발을 이용해 플랫폼을 기울이는 방식으로 전진·회전 가속을 유도한다. 여기서 중요한 점은 플랫폼이 ‘비관성 프레임’에서 움직이기 때문에 로봇이 느끼는 가속·속도는 실제 명령과 다르게 왜곡된다는 점이다. 둘째, 두 개의 상태 추정기(내재·외재)와 온라인 적응 기법(ROA)을 통해 이러한 왜곡을 실시간으로 보정한다. 내재 추정기는 시뮬레이션에서 얻은 ‘특권 정보’를 학습해 플랫폼 질량·마찰·자체 균형 제어 파라미터 등을 latent vector(z_int)로 압축하고, 배포 시에는 과거 관측 히스토리를 이용해 이를 추정한다. 외재 추정기는 로봇‑플랫폼 상대 위치·속도·발 접촉 상태 등을 추정해 정책에 제공한다. 셋째, 커리큘럼 학습을 적용해 명령 공간(속도·회전)을 단계적으로 확대함으로써 초기에는 쉬운 상황에서 학습하고, 점차 난이도를 높여 견고한 제어 정책을 획득한다.
실험에서는 A1, Go1, Anymal‑C, Spot 등 네 종류의 사족 로봇과 두 종류의 플랫폼(단일 보드·이중 보드)을 조합해 8가지 시나리오를 구축했다. 명령 추적 오차는 5% 이하로 수렴했으며, 전통적인 보행 대비 에너지 비용(Cost of Transport)은 평균 30% 이상 감소했다. 특히 고속 구간에서 플랫폼을 이용한 이동은 로봇 자체 구동에 비해 전력 소모가 현저히 낮아 장거리 임무에 적합함을 입증했다. 소거 실험에서는 (1) 추정기 제거, (2) 커리큘럼 없이 직접 학습, (3) 정책에 내재 파라미터를 직접 입력하는 경우를 비교했으며, 모두 성능 저하를 보였다. 이는 추정기와 커리큘럼이 비관성 환경에서의 안정성 및 적응성을 확보하는 데 필수적임을 의미한다.
이 논문의 한계로는 시뮬레이션 기반 검증에 머물렀다는 점, 실제 물리적 플랫폼과의 접촉·마찰 모델링 오차가 존재할 수 있다는 점, 그리고 플랫폼이 급격히 멈추거나 외부 충격을 받을 경우 로봇의 회복 메커니즘이 충분히 다루어지지 않았다는 점을 들 수 있다. 향후 실제 하드웨어 실험과 더 복잡한 외부 교란 상황에 대한 강인성 강화가 필요하다.
전반적으로 RL‑ATR은 사족 로봇이 기존의 보행·주행 이중 모드에서 한 단계 나아가, ‘타고 이동’이라는 새로운 모드를 학습하도록 만든 최초의 시도이며, 로봇 시스템 설계·운용 비용 절감과 임무 효율성 향상에 큰 잠재력을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기