다이나믹 조건 기반 휴머노이드 모션 트래킹의 혁신
초록
본 논문은 제한된 3.5시간 분량의 고품질 모션 데이터만으로도 다양한 동작을 안정적으로 추적할 수 있는 휴머노이드 전신 제어 정책을 제안한다. 최근 관절·관성 센서 정보를 인코딩한 ‘다이나믹 임베딩’과, 다중 헤드 교차‑어텐션을 이용해 현재 동역학에 맞는 명령 구간을 선택·집계하는 ‘커맨드 어그리게이션’ 구조를 도입한다. 또한 무작위 불안정 초기화와 점진적 상승 보조력을 활용한 낙상 회복 커리큘럼을 통합해 시뮬‑실제 전이와 외란 저항성을 크게 향상시켰다. 실험 결과, 기존 방법 대비 추적 정확도와 성공률이 현저히 개선되었으며, 미보인 동작과 비디오‑기반 추정 동작에도 제로샷 전이 가능함을 보였다.
상세 분석
이 연구는 휴머노이드 로봇의 전신 제어를 위한 핵심 문제인 ‘노이즈가 섞인 레퍼런스 모션’을 어떻게 안정적으로 활용할 것인가에 초점을 맞춘다. 저자는 최근 관절 위치·속도·중력 방향·베이스 각속도 등 93차원의 proprioceptive 정보를 10프레임(≈0.33 s) 길이의 시계열로 받아, 2‑layer MLP와 sinusoidal positional encoding을 거쳐 128차원 토큰 시퀀스로 변환한다. 이후 causal transformer(마스크 적용)와 max‑pooling을 통해 현재 동역학을 요약한 ‘dynamics embedding’ hₜ를 얻는다. 이 임베딩은 query 벡터 qₜ로 변환돼, 동일 차원의 command 토큰(레퍼런스 속도·관절 포즈·중력 등 38차원)과 교차‑어텐션을 수행한다. 다중 헤드 어텐션은 서로 다른 하위공간에서 유사도를 계산해, 현재 동역학과 일치하는 구간에 높은 가중치를 부여하고, 노이즈·접촉 불일치가 있는 구간은 억제한다. 이렇게 얻어진 uₜ는 현재 관측 oₜ와 결합돼 PPO 기반 actor‑critic 네트워크에 입력된다.
행동은 residual joint position aₜ를 출력해 q_refₜ에 더함으로써 PD 목표 q_tarₜ를 만든다. 이는 레퍼런스 모션을 기본으로 하면서도 미세 조정을 가능하게 해, 탐색 공간을 크게 축소하고 학습 효율을 높인다. 보상 함수는 keypoint 정합, 속도 일관성, 행동 스무딩, 관절 제한 위반, 비목표 접촉 등을 포함한 dense 형태이며, critic은 추가적인 noise‑free privileged 정보(h_ref, link poses, base velocity)를 사용해 가치 추정을 정확히 한다.
강건성을 위해 저자는 ‘Fall Recovery Curriculum’을 설계했다. 학습 환경의 15 %를 무작위 불안정 자세와 다양한 접촉 조건으로 초기화하고, 초기 단계에서는 0~200 N의 상승 보조력을 적용해 회복 가능성을 높인다. 보조력은 선형적으로 감소해 최종 정책은 자체 회복 능력만을 사용한다. 또한, base orientation, height, key link height 초과 시 에피소드를 강제 종료해 안전한 학습을 보장한다.
실험에서는 MoCap, 비디오‑추정, 실시간 텔레오프레션 등 세 가지 데이터 소스를 사용해 성공률(Success)과 평균 관절 위치 오차(EMPJPE)를 측정했다. 제안 방법은 기존 GMT(84.6 %/65.15 mm)와 Any2Track(89.2 %/56.96 mm)을 크게 앞서, MoCap에서는 98.3 %/41.12 mm, 비디오‑derived에서는 94.6 %/46.56 mm, Ground‑interaction에서는 90.1 %/54.92 mm를 기록했다. 아키텍처 Ablation에서는 self‑attention 기반 커맨드 인코더와 CNN 기반 히스토리 인코더가 각각 성능 저하를 보였으며, 낙상 회복을 제외하면 성공률이 70 % 이하로 급락했다. 시뮬‑실제 전이 실험에서는 Unitree G1에 직접 적용해 장시간(수 분) 안정적인 트래킹과 자동 회복을 확인했으며, joystick‑driven locomotion 등 downstream task에도 활용 가능함을 시연했다.
전반적으로 이 논문은 (1) 동역학에 조건화된 어텐션을 통한 명령 선택 메커니즘, (2) 소량의 고품질 데이터만으로도 일반화 가능한 전신 제어 정책, (3) 통합된 낙상 회복 커리큘럼이라는 세 축을 통해 기존 대규모 데이터·다단계 distillation 기반 접근법의 한계를 극복했다. 다만, 현재는 10‑step 히스토리와 2L+1 길이의 커맨드 윈도우에 의존해 장시간 의존성이나 매우 빠른 변화를 완전히 포착하지 못할 가능성이 있으며, 실제 복잡한 지형·불규칙한 외란에 대한 평가가 추가로 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기