리만 흐름 매칭을 통한 인간 동작 생성의 새로운 패러다임
초록
본 논문은 인간 동작을 유클리드 공간이 아닌 자연스러운 곱다양체(product manifold) 위에 표현하고, 리만 흐름 매칭(Riemannian Flow Matching) 기법으로 동작의 시공간 변화를 학습한다. 번역·회전 두 요소만을 이용한 압축 표현(𝒯+)으로 스케일‑프리하고 정규화가 내재된 형태를 제시하며, HumanML3D와 MotionMillion 데이터셋에서 기존 최첨단 모델들을 능가하는 FID와 정밀도(R@1) 성능을 기록한다.
상세 분석
RMG는 인간 스켈레톤을 “전역 번역(T)”, “전역 방향 및 관절 회전(R)” 두 개의 자연적인 리만 다양체로 분해한다. 전역 번역은 ℝ³의 유클리드 공간에 그대로 두고, 회전은 각 관절을 단위 사원수(𝑞∈S³)로 표현함으로써 SO(3)의 4차원 구면 위에 매핑한다. 이렇게 하면 차원 붕괴와 동시에 내부 정규화가 보장돼 별도의 평균·표준편차 정규화가 불필요해진다. 기존 연구에서 흔히 사용되는 관절 위치(P)나 시간 차분(d·) 등은 차원과 중복을 크게 늘리지만, 실험적으로는 T와 R만으로도 충분함을 입증한다.
학습 단계에서는 두 샘플 x₀(사전 분포)와 x₁(실제 데이터) 사이의 리만 지오데식을 따라 중간 상태 xₜ를 정의하고, 목표 속도 vₜ(xₜ|x₁)= (1/(1−t))·Logₓₜ(x₁) 를 구한다. 신경망 v_θ는 이 속도를 예측하도록 훈련되며, 출력은 각 요인별 접공간에 투사(Π_TₓₜM)되어 리만 오일러 업데이트 Expₓₜ( h·Π_TₓₜM v_θ ) 로 샘플링된다. 따라서 ODE 적분 과정 자체가 다양체 제약을 유지한다는 점이 큰 강점이다.
RMG는 “Riemannian Gaussian” 사전분포를 사용한다. 평균을 휴식 자세(0번 번역, 단위 사원수)로 잡고, 공분산을 블록대각 형태로 설정해 각 관절 회전에 독립적인 노이즈를 부여한다. 이는 기존 유클리드 정규분포와 달리 다양체 위에서 정의된 확률밀도이며, 샘플링 시 자연스럽게 유효한 회전값을 생성한다.
실험에서는 HumanML3D 텍스트‑투‑모션 벤치마크에서 FID 0.043을 달성해 현재 최고 기록을 경신했으며, MotionStreamer 포맷에서도 모든 지표에서 1위를 차지했다. 대규모 MotionMillion 데이터셋에서도 FID 5.6, R@1 0.86 등 강력한 일반화 능력을 보였다. Ablation 연구에서는 𝒯+ 표현이 가장 안정적이며, 회전만을 S³ 대신 6D 연속 표현으로 교체하면 지오데식 계산이 복잡해지고 성능이 저하됨을 확인했다. 또한, 시간 차분(d·)을 추가하면 학습이 불안정해지는 반면, 번역·회전만으로도 충분히 다양하고 물리적으로 일관된 동작을 생성한다는 결론에 도달했다.
이러한 결과는 인간 동작이 고차원 유클리드 공간에 임의로 매핑되는 것이 아니라, 몇 개의 저차원 리만 다양체의 곱으로 구성된다는 근본적인 가정을 실증적으로 뒷받침한다. 따라서 앞으로의 동작 생성 연구는 표현 단계부터 다양체 구조를 고려하는 것이 모델 효율성, 샘플 품질, 그리고 물리적 타당성을 동시에 향상시킬 수 있는 핵심 전략이 될 것으로 보인다.
댓글 및 학술 토론
Loading comments...
의견 남기기