HuMam: Mamba 기반 인간형 로봇 동작 제어

HuMam: Mamba 기반 인간형 로봇 동작 제어
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

HuMam은 단일 레이어 Mamba 인코더를 이용해 로봇 중심 상태와 목표 발걸음 정보를 효율적으로 융합하고, PPO로 학습된 정책이 저이득 PD 제어기를 통해 관절 위치 목표를 출력한다. 6가지 항목으로 구성된 보상 함수는 접지 품질, 스윙 부드러움, 발 위치 정확도, 자세, 높이 및 상체 흔들림을 동시에 최적화하여 에너지 효율과 토크 피크 감소를 달성한다.

상세 분석

본 논문은 인간형 로봇의 보행 제어에 딥 강화학습을 적용하면서도 기존 방법이 안고 있던 학습 불안정성, 비효율적인 피처 융합, 높은 구동 비용 문제를 동시에 해결하고자 한다. 핵심 아이디어는 ‘Mamba’라는 최신 상태‑공간 모델 기반 인코더를 단일 레이어로 활용해 로봇 자체 상태(관절 위치·속도, 몸통 자세·각속도)와 외부 목표(두 개의 발걸음 위치·방향, 연속적인 위상 클록)를 하나의 토큰 시퀀스로 변환한 뒤, 가벼운 게이트 기반 연산으로 특징을 혼합한다는 점이다. 기존의 RNN이나 Transformer와 달리 시간 정보를 내부 상태에 내재화하지 않아도 현재 시점의 다중 모달 입력 간 구조적 의존성을 충분히 포착한다. 이는 연산 복잡도가 거의 선형에 가깝고 메모리 사용량이 적어 실시간 제어에 적합함을 의미한다.

정책 네트워크는 Mamba 인코더 출력에 기반해 12 자유도 관절의 목표 위치를 예측하고, 1000 Hz로 동작하는 저이득 PD 루프가 이를 토크로 변환한다. 이렇게 고수준 정책이 저수준 트래킹 동작을 내재화함으로써, 학습 단계에서 관절 토크의 급격한 변동을 억제하고 안정적인 그래디언트 흐름을 확보한다. 보상 설계는 여섯 가지 항목으로 구성되는데, 각각 접지 힘의 제곱, 스윙 발 속도의 제곱, 목표 발 위치와의 유클리드 거리, 몸통 쿼터니언과 목표 자세 간 코사인 유사도, 기준 높이와의 차이, 상체 중심과 머리 중심의 XY 거리 차이를 지수 형태로 penalize한다. 특히 ‘step’ 보상이 0.45의 높은 가중치를 차지해 정확한 발 착지를 강제하고, ‘force’와 ‘vel’ 보상이 각각 0.15씩 할당돼 접지 품질과 스윙 부드러움을 동시에 유도한다. 이러한 설계는 에너지 절감 효과를 암시적으로 포함하면서도 별도의 전력 모델링 없이도 토크 피크와 전력 소비를 감소시킨다.

실험은 mc‑mujoco 환경의 JVRC‑1 인간형 로봇을 대상으로 전진, 후진, 곡선, 측방, 정지 등 다섯 가지 보행 과제를 수행한다. 동일한 학습 예산(시뮬레이션 스텝)에서 Mamba 기반 HuMam은 피드포워드 기반 베이스라인 대비 학습 곡선이 더 가파르고, 최종 평균 보상이 12 % 이상 향상되었다. 또한 5 % 수준의 시드 간 변동성을 감소시켜 재현성을 높였다. 에너지 측면에서는 평균 전력 소비가 8 % 감소하고, 토크 피크가 10 % 이하로 억제되는 등 구동 효율이 눈에 띄게 개선되었다. 이러한 결과는 Mamba 인코더가 입력 융합을 효율적으로 수행함과 동시에 정책이 물리적 제약을 자연스럽게 학습하도록 돕는다는 가설을 실증한다.

한계점으로는 현재 시점 기반 설계가 장기적인 예측 능력을 직접 제공하지 않으며, 복잡한 지형이나 외부 센서(예: 비전)와의 통합에 대한 검증이 부족하다는 점을 들 수 있다. 향후 연구에서는 Mamba에 시간적 메모리를 추가하거나, 시뮬레이션‑투‑실제 전이 기법을 적용해 실제 로봇에 배포하는 방향을 모색할 필요가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기