동적 타깃팅을 위한 샘플링 기반 궤적 최적화
초록
DynaRetarget는 인간 동작을 로보틱스용 전신 제어 정책으로 변환하는 파이프라인이다. 핵심은 샘플링 기반 궤적 최적화(SBTO)로, 불완전한 키네마틱 트래젝터리를 단계적으로 확장된 최적화 호라이즌을 통해 동역학적으로 실현 가능한 궤적으로 정제한다. 실험에서 수백 개의 인간‑물체 시연을 성공적으로 리타게팅했으며, 기존 방법보다 높은 성공률과 로봇‑실제 전이 성능을 보였다.
상세 분석
본 논문은 인간-물체 상호작용 데이터를 로봇용 전신 제어 정책으로 변환하는 문제를 ‘키네마틱 리타게팅 → 동역학 정제 → 강화학습 트래킹’이라는 3단계 파이프라인으로 해결한다. 기존 연구들은 주로 IK 기반 키네마틱 최적화나 짧은 호라이즌을 갖는 샘플링 기반 모델 예측 제어(SBMPC)를 사용했지만, 장시간 행동에서의 전역적 일관성 부족, 접촉 정보 손실, 그리고 급격한 제어 변화 등으로 인해 물리적 불일치가 빈번히 발생한다. DynaRetarget는 이러한 한계를 극복하기 위해 ‘Sampling‑Based Trajectory Optimization(SBTO)’을 제안한다.
SBTO는 제어 변수를 ‘노드(knot)’ 형태로 시간 간격 τ마다 배치하고, 초기에는 첫 번째 노드만 최적화한다. 이후 최적화가 수렴하면(공분산 행렬 Σ의 대각 원소가 사전 정의 σ_min 이하가 될 때) 다음 노드를 추가하고, 현재까지 최적화된 변수들을 고정하지 않은 채 전체 변수 집합을 다시 샘플링한다. 이 과정을 전체 호라이즌이 포함될 때까지 반복함으로써, 초기 단계에서 전역적인 구조를 잡고, 후반부에서는 세부적인 동작을 미세 조정한다. 이러한 점진적 호라이즌 확장은 고차원 전신 로봇(수백 자유도) 문제에서도 샘플링 기반 제로‑오더 최적화가 수렴하도록 돕는다.
알고리즘 구현에서는 Cross‑Entropy Method(CEM)를 사용해 샘플링 분포의 평균과 공분산을 업데이트한다. 엘리트 샘플을 일정 비율(ρ_e) 유지하고, 이전 이터레이션의 엘리트 샘플을 보존하는 비율(ρ_k)과 EWMA 모멘텀(α_µ, α_Σ)을 도입해 분포가 과도히 수축되는 것을 방지한다. 초기 평균은 키네마틱 리타게팅 결과의 관절 위치를 그대로 사용하고, 초기 표준편차 σ_0는 0.25rad로 설정한다. 이러한 하이퍼파라미터는 실험을 통해 충분히 큰 탐색 공간을 제공하면서도 수렴 속도를 유지하도록 조정되었다.
실험에서는 MuJoCo 시뮬레이터와 G1 전신 로봇을 이용해 수백 개의 시연(킥, 리프트, 푸시 등)을 평가하였다. SBTO는 기존 SBMPC 대비 성공률이 평균 23%p 상승했으며, 특히 접촉이 중요한 장면에서 ‘접촉 누락’이나 ‘발 스키핑’ 같은 오류를 현저히 감소시켰다. 또한, SBTO가 생성한 동역학적으로 일관된 트래젝터리를 강화학습(RL) 트래킹 정책의 학습 데이터로 사용했을 때, 정책의 수렴 속도가 빨라지고 실제 로봇에 zero‑shot 전이했을 때도 안정적인 수행을 보였다.
핵심 인사이트는 (1) 전체 호라이즌을 고려하는 점진적 샘플링이 고차원 전신 로봇의 장기 행동을 안정적으로 최적화한다는 점, (2) 샘플링 기반 제로‑오더 방법이 접촉‑다중 물체 환경에서도 충분히 정확한 비용 추정을 제공한다는 점, (3) 동역학 정제된 트래젝터리가 RL 정책 학습에 제공하는 데이터 품질이 실제 전이 성능을 크게 좌우한다는 점이다.
댓글 및 학술 토론
Loading comments...
의견 남기기