물리적 일관성을 갖춘 인간형 로봇 동작 생성, 선호 최적화 기반 PhysMoDPO
PhysMoDPO는 Whole‑Body Controller를 학습 파이프라인에 직접 통합하고, 물리 기반·과제 특화 보상을 이용해 생성된 모션에 대한 선호 쌍을 만든 뒤 Direct Preference Optimization(DPO)으로 diffusion 모델을 미세조정한다. 이를 통해 텍스트‑조건 및 공간 제어 작업에서 물리적 실현 가능성과 텍스트 일치도를 동시에 향상시키며, 시뮬레이션·실제 G1 휴머노이드 로봇에 대한 제로‑샷 전이까지 검증…
저자: Yangsong Zhang, Anujith Muraleedharan, Rikhat Akizhanov
본 논문은 텍스트‑조건 인간 동작 생성 분야에서 확산 모델이 보여준 급격한 발전을 바탕으로, 생성된 모션을 실제 휴머노이드 로봇에 적용할 때 발생하는 물리적 불일치를 해결하고자 한다. 기존 접근법은 확산 모델이 만든 모션을 Whole‑Body Controller(WBC)에 전달해 물리 엔진을 통과시키는 방식으로 물리적 일관성을 어느 정도 확보했지만, WBC가 적용된 후에도 발 슬라이딩, 무게중심 이탈, 관절 과부하 등 원본 모션과 크게 차이가 나는 현상이 빈번했다. 이러한 문제를 완화하기 위해 연구자들은 발‑슬라이딩 페널티와 같은 손수 설계된 히ュー리스틱을 보상에 포함시켰지만, 히ュー리스틱 설계는 도메인 지식에 크게 의존하고, 복합적인 물리 현상을 포괄적으로 다루기 어렵다는 한계가 있었다.
이에 저자들은 PhysMoDPO라는 새로운 프레임워크를 제안한다. 핵심 아이디어는 두 단계로 구성된다. 첫 번째 단계는 기존 확산 기반 모션 생성기를 그대로 사용하되, 생성된 원시 모션을 즉시 물리 시뮬레이터와 WBC에 통과시켜 실제 로봇이 따라갈 수 있는 trajectory X′를 얻는 것이다. 두 번째 단계에서는 이 trajectory에 대해 물리 기반 보상과 과제 특화 보상을 동시에 계산한다. 물리 기반 보상은 발 접촉 유지, 무게중심 안정성, 관절 제한 위반, 에너지 소모 등을 정량화하고, 과제 보상은 텍스트‑모션 일치도(예: CLIP‑Text와 모션 임베딩 간 코사인 유사도)와 목표 위치 도달 정확도 등을 포함한다.
보상이 계산된 뒤, 동일한 입력 조건(텍스트 프롬프트 혹은 텍스트 + 관절 목표)에서 여러 모션 샘플을 추출하고 각각을 WBC에 적용한다. 물리·과제 보상이 높은 샘플을 “선호”(preferred)로, 낮은 샘플을 “비선호”(rejected)로 라벨링한다. 이렇게 자동으로 생성된 선호 쌍을 이용해 Direct Preference Optimization(DPO) 손실을 최소화한다. DPO는 KL‑다이버전스 기반의 손실로, 선호된 샘플의 로그 확률을 높이고 비선호 샘플의 로그 확률을 낮추는 방식이다. 중요한 점은 DPO가 사전 학습된 확산 모델의 파라미터만을 미세조정한다는 점이며, WBC와 물리 시뮬레이터는 고정된 외부 모듈로 남아 있다. 따라서 모델은 “WBC‑통과 후에도 물리적 제약을 만족하면서 텍스트 명령을 충실히 따르는” 모션을 직접 생성하도록 학습된다.
보상 설계는 세부적으로 다음과 같다. (1) **Physics Reward**: 발‑접촉 유지 비율, 발‑슬라이딩 거리, 무게중심이 지면으로부터 벗어나는 거리, 관절 토크 제한 초과 비율, 에너지 효율성 등을 각각 가중치 w₁…w₅로 합산한다. (2) **Task Reward**: 텍스트‑모션 의미 일치도는 사전 학습된 텍스트‑모션 임베딩(예: CLIP‑Text) 간 코사인 유사도로 측정하고, 공간 제어 과제에서는 목표 관절 위치와 실제 관절 위치 간 L2 오차를 사용한다. (3) **Composite Reward**: R = α·R_physics + β·R_task 형태로 두 보상을 결합하며, α와 β는 실험을 통해 최적화한다.
학습 절차는 다음과 같다. (i) 대규모 인간 동작 데이터셋으로 사전 학습된 diffusion 모델을 준비한다. (ii) 각 배치에 대해 조건 C(텍스트·관절 목표)를 고정하고, N개의 모션 샘플을 생성한다. (iii) 각 샘플을 WBC에 통과시켜 시뮬레이션된 trajectory X′를 얻고, 물리·과제 보상을 계산한다. (iv) 보상이 높은 상위 K개와 낮은 하위 K개를 각각 선호·비선호로 매칭해 선호 쌍을 만든다. (v) DPO 손실을 계산하고, 역전파를 통해 diffusion 모델 파라미터를 업데이트한다. 이 과정을 여러 epoch에 걸쳐 반복한다.
실험은 두 가지 주요 설정에서 수행되었다. 첫 번째는 텍스트‑투‑모션 베이스라인(예: MotionDiffuse, MDM)에 PhysMoDPO를 적용해 물리적 지표와 텍스트 일치도를 평가한 것이다. 결과는 발‑슬라이딩 비율이 0.12→0.03으로 75% 감소하고, 무게중심 이탈 거리가 평균 5 cm→2 cm로 개선되었으며, 텍스트‑모션 유사도도 0.68→0.74로 상승했다. 두 번째는 공간 제어 작업(예: 특정 관절을 목표 위치로 이동)에서 PhysMoDPO가 목표 오차를 15 cm→6 cm로 크게 줄였으며, 동시에 물리 보상도 유지되었다.
특히 제로‑샷 전이 실험에서는 사전 학습된 모델을 그대로 사용해 G1 휴머노이드 로봇에 적용했을 때, 기존 파이프라인에서는 발이 지속적으로 미끄러지는 현상이 있었지만, PhysMoDPO 적용 후에는 발 슬라이딩이 거의 없었고, 로봇이 균형을 유지하며 목표 동작을 수행했다. 실제 로봇 실험에서도 시뮬레이션과 유사한 물리적 지표가 재현되었으며, 이는 물리 엔진을 학습 피드백 루프로 활용한 것이 큰 역할을 했음을 시사한다.
논문의 기여는 크게 세 가지이다. (1) 물리 엔진을 직접 피드백으로 활용한 DPO 기반 포스트‑트레이닝 프레임워크 제안, (2) 물리·과제 보상을 통합해 자동으로 선호 쌍을 생성하는 방법론, (3) 시뮬레이션·실제 로봇 양쪽에서 물리적 실현 가능성과 과제 수행 능력을 동시에 향상시킨 실증적 검증. 저자들은 향후 복잡한 지형, 외부 힘, 다중 로봇 협동 등 더 어려운 환경에 대한 보상 설계와 샘플 효율성 개선을 연구할 계획이라고 밝히며, PhysMoDPO가 차세대 로봇 애니메이션 및 제어 시스템의 핵심 기술이 될 가능성을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기