움직이는 플랫폼 위 사족보행 로봇의 학습 기반 적응형 균형 제어

움직이는 플랫폼 위 사족보행 로봇의 학습 기반 적응형 균형 제어
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 6자유도(DoF) 움직이는 플랫폼에서 사족보행 로봇이 안정적으로 서 있을 수 있도록, 강화학습 기반 정책과 두 종류의 상태 추정기를 결합한 LAS‑MP(Learning‑based Active Stabilization on Moving Platforms) 시스템을 제안한다. B‑스플라인 기반의 플랫폼 궤적 생성·커리큘럼 스케줄링을 통해 다양한 동적 환경을 학습하고, 추정된 로봇·플랫폼 상태와 정렬 명령을 정책에 제공함으로써 기존 방법 대비 균형 유지 성능을 크게 향상시켰다.

상세 분석

LAS‑MP는 사족보행 로봇이 6‑DoF 플랫폼의 복합적인 가속·회전 운동에 의해 발생하는 관성력, 원심·코리올리 힘 등을 실시간으로 보상하도록 설계되었다. 핵심은 (1) 시스템 상태 추정기와 (2) 정렬(alignment) 명령이다. 첫 번째 추정기는 로봇의 접촉 상태·관절 속도·플랫폼 선·각속도 등 명시적 파라미터를 직접 예측하고, 두 번째는 마찰계수·질량 중심 이동 등 내재적 파라미터를 저차원 잠재 벡터로 추출한다. 이렇게 얻은 추정값은 정책 네트워크의 입력으로 사용돼, 제한된 프로프리오셉티브 센서만으로도 비관성 프레임에서의 상황 인식을 가능하게 한다.

정책 자체는 관측값 o, 명시적 파라미터 x_exp, 잠재 벡터 l_imp, 정렬 명령 u_aln을 결합한 다중 입력 구조이며, 출력은 관절 변위 Δq 이다. Δq는 PD 제어기에 전달돼 목표 관절 위치 q_target 을 생성한다. 정렬 명령은 로봇·플랫폼의 상대 속도와 자세 차이를 기반으로 설계돼, 학습 초기의 탐색 효율을 높이고 수렴 속도를 가속한다.

학습 단계에서는 Privileged Learning 개념을 차용해 시뮬레이션에서만 접근 가능한 ‘특권 파라미터’를 이용한다. Regularized Online Adaptation(ROA) 방식을 적용해 정책과 추정기를 동시에 최적화함으로써, 별도의 교사‑학생 단계 없이도 추정기의 오차를 정규화 손실에 포함시켜 정책이 추정값에 과도하게 의존하지 않도록 균형을 맞춘다.

플랫폼 궤적은 B‑스플라인 기반 생성기로, 다양한 주파수·진폭·위상 조합을 자동으로 샘플링한다. 커리큘럼 스케줄링은 난이도(가속도·회전량)를 단계적으로 상승시켜, 초기에는 저속·저진폭 움직임을, 후반에는 급격한 6‑DoF 변동을 학습하게 한다. 이러한 체계적 데이터 생성·학습 파이프라인은 정책이 실제 환경에서 보지 못한 복합 움직임에도 일반화할 수 있게 만든다.

실험에서는 세 가지 베이스라인(전통 모델 기반 제어, 기존 RL 기반 균형 정책, 2‑DoF 전용 정책)과 비교해 낙하율, 자세 오차, 에너지 소비 등 다중 지표에서 유의미한 개선을 보였다. 특히 추정기와 정렬 명령을 각각 제거한 ablation 실험에서 성능 저하가 크게 나타나, 두 구성 요소가 시스템 전체 안정성에 핵심적임을 입증한다.

요약하면, LAS‑MP는 (1) 복합 6‑DoF 플랫폼 동작에 대한 물리적 이해를 추정기로 내재화하고, (2) 정렬 명령을 통한 정책 가이드라인 제공, (3) 커리큘럼 기반 다양하고 점진적인 학습 데이터 공급이라는 세 축을 결합해, 사족보행 로봇이 이동 플랫폼 위에서 실시간으로 적응·균형을 유지하도록 하는 혁신적인 프레임워크라 할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기