전역 피드백 기반 전신 휴머노이드 원격조정 시스템 CLOT
초록
CLOT은 고주파 위치 추정 정보를 활용해 전신 휴머노이드 로봇의 전역 자세 드리프트를 실시간으로 보정하는 원격조정 프레임워크이다. 관측‑보상 간 시간적 불일치를 무작위로 도입하는 “Observation Pre‑shift” 전략으로 전역 트래킹 보상을 안정적으로 적용하고, 트랜스포머 기반 정책과 적대적 모션 프라이어를 결합해 자연스러운 동작을 유지한다. 20시간 규모의 자체 인간 동작 데이터와 1300 GPU‑시간 학습을 통해 31 DoF 전신 로봇에 적용했으며, 시뮬레이션·실험 모두에서 장시간 고동적 동작과 드리프트 없는 정확한 트래킹을 입증했다.
상세 분석
본 논문은 전신 휴머노이드 로봇의 장기 원격조정 시 발생하는 전역 자세 드리프트 문제를 핵심으로 다룬다. 기존 학습 기반 트래킹 기법은 로봇의 로컬 프레임에서 동작을 최적화해 전역 위치 정보를 무시함으로써, 특히 무게중심이 높고 관성 효과가 큰 전신 로봇에서 누적 오차가 급격히 증가한다. CLOT은 고주파 광학 모션 캡처 시스템으로 실시간 전역 포즈를 측정하고, 이를 정책에 피드백 루프로 삽입해 연속적인 전역 보정을 가능하게 한다.
전역 트래킹 보상을 그대로 강화학습에 적용하면, 정책이 목표 위치에 급속히 수렴하려다가 과도한 관절 가속도와 불안정성을 초래한다. 이를 해결하기 위해 저자들은 “Observation Pre‑shift”라는 데이터‑드리븐 랜덤화 기법을 제안한다. 학습 단계에서 관측 윈도우를 무작위 미래 시점으로 이동시키면서도 보상은 현재 목표에 대해 평가함으로써, 정책이 시간적 불일치를 스스로 보정하도록 유도한다. 이 과정은 실제로 “암묵적 보간”을 학습하게 하여, 급격한 전역 교정 대신 부드러운 연속성을 유지한다.
정책 네트워크는 트랜스포머 아키텍처를 채택해 과거 프로프리오셉션, 현재 목표, 그리고 전역 포즈 정보를 토큰화하고 전역 셀프‑어텐션을 수행한다. 이는 장시간 의존성을 효과적으로 포착해 복합적인 loco‑manipulation 동작을 생성한다. 또한, 적대적 모션 프라이어(AMP)를 보조 보상으로 도입해 물리적으로 비현실적인 관절 움직임이나 급격한 진동을 억제한다.
데이터 측면에서는 기존 공개 데이터셋이 로봇 물리 모델과 맞지 않는 경우가 많아, 저자들은 20시간 분량의 고품질 인간 동작을 직접 수집했다. 수집 과정에서 발끝 걷기, 과도한 무게중심 이동 등 로봇에 위험을 초래할 수 있는 동작을 배제하고, 발 접촉 일관성과 관절 한계를 엄격히 관리했다.
학습은 PPO 기반의 강화학습으로 진행되며, 도메인 랜덤화와 커리큘럼 학습을 병행해 시뮬‑실 차이를 최소화한다. 최종 정책은 31 DoF 전신 로봇(손 제외)에 실시간 적용돼, 실험에서는 고속 달리기, 회전, 복합적인 몸통·팔 동작 등 다양한 시나리오에서 전역 드리프트 없이 안정적으로 동작함을 보였다.
핵심 기여는 (1) 고주파 전역 피드백을 통한 실시간 전역 제어 루프, (2) 관측‑보상 간 시간적 디커플링을 구현한 Observation Pre‑shift 전략, (3) 휴머노이드 원격조정을 위한 맞춤형 인간 동작 데이터셋이다. 이들 요소가 결합돼 전통적인 로컬‑프레임 트래킹의 한계를 뛰어넘는 장기 안정성과 고동적 성능을 동시에 달성한다.
댓글 및 학술 토론
Loading comments...
의견 남기기