제로샷 인간동작 전이로 구현하는 다관절 로봇의 역동적 제어
초록
ZEST는 모션 캡처, 영상, 애니메이션 등 이질적인 인간 동작 데이터를 활용해 강화학습 기반 정책을 하나의 파이프라인으로 학습한다. 적응형 샘플링과 모델 기반 보조 토크 커리큘럼을 결합해 어려운 구간을 집중 학습하고, 간단한 피드포워드 네트워크와 분석적 관절 이득 설정으로 시뮬레이션에서 훈련된 정책을 Atlas, Unitree G1, Spot 등에 제로샷으로 바로 적용한다. 복잡한 보상 설계·접촉 라벨링·상태 추정 없이도 군무, 브레이크댄스, 박스 등반, 연속 백플립 등 고난이도 다접촉 기술을 성공적으로 구현한다.
상세 분석
ZEST는 기존 모션 트래킹 기반 제어와 순수 RL 기반 제어의 장단점을 융합한 새로운 프레임워크이다. 첫째, 데이터 소스로 MoCap, V‑Cap(노이즈가 많은 단일 카메라 영상), 그리고 물리 제약이 없는 키프레임 애니메이션을 모두 허용한다는 점에서 데이터 수집 비용을 크게 낮춘다. 둘째, 정책 학습 과정에서 “어려운 구간”을 자동으로 탐지해 샘플링 비중을 높이는 적응형 샘플링(EMA 기반 실패 점수와 카테고리형 샘플러)을 도입함으로써 긴 시간 규모의 클립을 효율적으로 학습한다. 셋째, 모델 기반 보조 토크(assistive wrench)를 가상적으로 적용해 초기 학습 단계에서 로봇이 급격히 전도되거나 넘어지는 위험을 완화하고, 학습이 진행될수록 점차 감소시켜 자연스러운 커리큘럼을 구현한다.
보상 설계 측면에서는 단일 일관된 형태의 모션 매칭 보상만 사용한다. 구체적으로 현재 관절 상태와 목표 관절 위치(다음 프레임) 사이의 L2 거리와, 관절 속도·가속도에 대한 정규화 항을 결합해 부드러운 트래킹을 유도한다. 별도의 접촉 라벨, 미래 윈도우, 히스토리 입력, 외부 센서(예: 외부 포즈 추정) 등을 배제해 정책이 순수히 proprioceptive 정보와 바로 전 행동만을 이용하도록 설계했다. 이는 실제 로봇에 적용할 때 상태 추정 파이프라인을 생략하게 해 시스템 복잡도를 크게 낮춘다.
하드웨어 전이에서는 폐쇄형 체인 액추에이터(무릎·발목 등)의 관성(armature) 값을 근사적으로 계산한 분석 모델을 이용해 PD 이득을 자동 설정한다. 이는 기존에 수작업으로 튜닝하던 과정을 대체하고, 다양한 로봇 형태(Atlas 1.8 m·100 kg, Unitree G1, Spot)에도 동일한 파라미터 세트만으로 적용 가능하게 만든다. 시뮬레이션에서는 중간 정도의 도메인 랜덤화(마찰, 질량, 센서 노이즈, 외부 충격)를 적용했음에도 불구하고, 실제 로봇에서 10시간(≈7k iteration) 학습된 정책이 일관된 성공률을 보였다.
실험 결과는 다중 접촉·다관절 동작(예: 군무, 브레이크댄스, 박스 등반, 연속 백플립)에서 기존 모델 기반 플래너+트래커 방식보다 더 높은 견고성을 보여준다. 특히 영상 기반(V‑Cap) 데이터는 포즈 잡음·발 스키딩이 심함에도 불구하고, ZEST는 이를 자동 정제·보정해 학습에 활용한다는 점에서 데이터 레질리언스가 뛰어나다. 전체 파이프라인이 단일 단계, 단일 정책 네트워크, 최소한의 하이퍼파라미터로 구성돼 있어 확장성·재현성이 높다.
댓글 및 학술 토론
Loading comments...
의견 남기기