인터프라이어 물리 기반 인간 물체 상호작용을 위한 확장 가능한 생성 제어

인터프라이어 물리 기반 인간 물체 상호작용을 위한 확장 가능한 생성 제어
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
InterPrior는 대규모 인간‑물체 상호작용 데이터를 모방 학습으로 사전 훈련하고, 물리적 교란과 강화학습 미세조정을 통해 일반화된 목표‑조건부 변분 정책을 만든다. 이 정책은 스냅샷 목표, 궤적 목표, 접촉 목표 등 다양한 고수준 의도를 받아들여 물리 시뮬레이터에서 인간형 로봇이 안정적으로 물체를 잡고 조작하도록 제어한다.

**

상세 분석

**
InterPrior는 세 단계 파이프라인으로 구성된다. 첫 번째 단계에서는 기존 InterMimic 프레임워크를 확장한 InterMimic+를 이용해 전체 레퍼런스 모션을 그대로 따라가는 전문가 정책 π_E를 PPO 기반으로 학습한다. 여기서 핵심은 물리적 교란(무작위 임펄스, 물체 질량·마찰 변동)과 종료 페널티 r_ter를 도입해 레퍼런스에 대한 과도한 의존성을 완화하고, 얇은 물체나 작은 부품과의 정밀 접촉에서도 안정성을 확보한다는 점이다.

두 번째 단계는 전문가 정책을 마스크드 조건부 변분 정책 π로 압축(distill)하는 과정이다. 관측 x_t와 목표 G_t(단기 프리뷰와 장기 스냅샷을 혼합) 사이의 차이를 로그맵·선형 차감으로 정규화하고, 마스크 m_t를 통해 어떤 요소가 제공되는지 명시한다. 변분 인코더는 목표‑조건부 잠재 변수 z를 추출하고, 디코더는 z와 현재 관측을 결합해 다중 모달 행동 분포 π(a_t|x_t,G_t) 를 출력한다. 이 구조는 목표가 불완전하거나 사용자 정의일 때도 자연스럽게 보간된 동작을 생성하도록 설계되었다.

세 번째 단계는 강화학습 기반 미세조정이다. 여기서는 재시작 시 실패 상태(예: 손이 물체를 놓친 상황)를 의도적으로 삽입하고, 성공적인 재접근·재그립을 보상한다. 동시에 KL‑다이버전스 기반 정규화 L_KL 을 적용해 사전 학습된 잠재 공간을 크게 벗어나지 않도록 제약한다. 결과적으로 정책은 (1) 보지 못한 목표와 초기화에 대한 성공률이 크게 향상되고, (2) 물리 파라미터 변동에도 로봇이 균형을 유지하며 물체를 조작한다.

실험에서는 SMPL 기반 가상 인간과 Unitree G1 로봇 두 가지 구현체에 대해 시뮬‑투‑시뮬 평가를 수행했으며, 목표 전환, 중간 재시작, 새로운 물체(형태·질량) 도입 등 다양한 시나리오에서 기존 모방 기반 트래커와 adversarial imitation 대비 월등한 성공률과 자연스러운 동작을 보였다. 특히, 사용자 키보드 입력을 통한 실시간 스티어링 제어와 실제 로봇에 대한 시뮬‑투‑리얼 전이 가능성을 시연함으로써, 정책이 단순 시뮬레이션을 넘어 실제 물리 시스템에 적용될 수 있음을 입증했다.

핵심 인사이트는 (①) 대규모 모방 데이터만으로는 고차원 인간‑물체 상호작용 공간을 충분히 커버하지 못한다는 점, (②) 물리적 교란과 목표 마스킹을 통한 데이터 증강이 잠재 공간의 다양성을 확보한다는 점, (③) 강화학습은 사전 학습된 자연스러운 동작을 유지하면서도 외부 교란에 대한 복원력을 부여한다는 점이다. 이러한 설계는 향후 복합적인 loco‑manipulation 과제를 다루는 범용 모션 프라이어 개발에 중요한 방향성을 제시한다.

**


댓글 및 학술 토론

Loading comments...

의견 남기기