“2D 키포인트만으로 3D 물리 기반 캐릭터를 마스터한다! – Mimic2DM 실시간 동작 모방 프레임워크”
📝 Abstract
Figure 1. The proposed Mimic2DM effectively learns character controllers for diverse motion types, including dynamic human dancing, complex ball interactions, and agile animal movements, by directly imitating 2D motion sequences extracted from in-the-wild videos.
💡 Analysis
**
1. 연구 배경 및 동기
- MoCap 비용 문제: 고품질 3D 모션 캡처는 장비·인력·시간이 많이 소요돼 확장성이 낮다.
- 비디오 데이터의 풍부함: 인터넷에 존재하는 ‘in‑the‑wild’ 영상은 무한에 가깝고, 2D 키포인트 추출은 현재 거의 비용이 들지 않는다.
- 기존 3D 재구성 한계: 2D→3D 변환은 근본적인 깊이 불확실성을 내포하고, 특히 인간‑물체 상호작용(HOI)이나 비인간(동물) 동작에서는 사전 학습된 3D 프라이어가 부족해 물리적 타당성이 떨어진다.
2. 핵심 아이디어
| 요소 | 설명 | 장점 |
|---|---|---|
| 재투영 오류 최소화 | 정책 π가 생성한 3D 관절을 카메라 C에 투영한 2D 좌표와 입력 2D 시퀀스 X 사이의 L2 차이를 최소화 | 2D 데이터만으로 직접 학습, 물리 제약을 동시에 적용 |
| View‑agnostic 2D 트래킹 정책 | 다양한 시점에서 수집된 2D 궤적을 하나의 정책에 학습시켜, 암묵적으로 3D 구조를 파악 | 단일‑뷰 정책을 다중‑뷰에 zero‑shot 확장 가능 |
| 자동회귀 2D 모션 생성기 (Transformer) | 고품질 2D 레퍼런스 궤적을 생성 → 트래킹 정책이 이를 따라가며 물리적 동작을 구현 | 기존 diffusion‑기반 모델 대비 더 정밀하고 일관된 2D 시퀀스 제공 |
| 계층형 제어 구조 | 상위 2D 생성기 → 하위 물리 트래킹 정책 → 최종 3D 시뮬레이션 | 생성·제어를 명확히 분리, 학습 안정성 및 확장성 향상 |
3. 기술적 구현
- 문제 정의
\
📄 Content
물리 시뮬레이션 3D 캐릭터 제어 학습을 위한 2D 모션 생성 및 모방
Jianan Li¹, Xiao Chen¹, Tao Huang²,³, Tien‑Tsin Wong⁴
¹ 홍콩중문대학
² 상하이 AI 연구소
³ 상하이 교통대학교
⁴ 모나시 대학교
그림 1. 제안된 Mimic2DM은 다양한 동작 유형(동적인 인간 댄스, 복잡한 공 상호작용, 민첩한 동물 움직임 등)을 직접 야생 비디오에서 추출한 2D 모션 시퀀스를 모방함으로써 캐릭터 컨트롤러를 효과적으로 학습한다.
초록
비디오 데이터는 모션 캡처(MoCap) 데이터에 비해 비용 효율성이 높아 3D 캐릭터 모션 컨트롤러 학습에 유리하지만, 비디오만으로 현실적이고 다양성 있는 행동을 직접 합성하는 일은 여전히 어려운 과제이다. 기존 방법들은 대부분 오프‑더‑쉘프 모션 재구성 기술에 의존해 물리 기반 모방을 위한 3D 궤적을 얻는다. 그러나 이러한 재구성 기법은 3D 학습 데이터가 필요하거나(데이터가 부족할 수 있음) 물리적으로 타당한 포즈를 생성하지 못해 인간‑물체 상호작용(HOI)이나 비인간 캐릭터와 같은 도전적인 상황에 적용하기 어렵다.
본 논문에서는 Mimic2DM이라는 새로운 모션 모방 프레임워크를 제안한다. 이 프레임워크는 광범위하게 이용 가능한 2D 키포인트 궤적만을 사용해 제어 정책을 직접 학습한다.
- 재투영 오류 최소화를 목표로, 단일 뷰 2D 모션 트래킹 정책을 학습한다. 이 정책은 물리 시뮬레이션 내에서 임의의 2D 레퍼런스 모션을 따라가며, 오직 2D 데이터만으로도 3D 움직임을 추적할 수 있다.
- 다양한 시점에서 촬영된 2D 모션을 학습하면, 여러 뷰를 **집계(aggregation)**함으로써 자연스럽게 3D 모션 트래킹 능력을 획득한다.
- 또한 트랜스포머 기반 자동회귀 2D 모션 생성기를 개발하고, 이를 계층형 제어 구조에 통합한다. 생성기는 고품질 2D 레퍼런스 궤적을 제공해 트래킹 정책을 효과적으로 안내한다.
실험 결과, 제안된 방법은 댄스, 축구 드리블, 동물 움직임 등 다양한 도메인에서 물리적으로 타당하고 다양성 있는 동작을 합성할 수 있음을 보였다. 이 과정에서 명시적인 3D 모션 데이터는 전혀 사용되지 않았다.
프로젝트 웹사이트: https://jiann-li.github.io/mimic2dm/
1. 서론
물리 시뮬레이션 기반 캐릭터가 현실적인 움직임과 타당한 물체 상호작용을 수행하도록 제어하는 문제는 컴퓨터 애니메이션과 로보틱스 분야에서 오래된 핵심 과제이다. 최근 모션 모방 기술은 모션 캡처(MoCap) 데이터를 활용해 물리 기반 캐릭터 컨트롤러를 학습시킴으로써, 시뮬레이션된 가상 캐릭터가 매우 동적이고 물리적으로 사실적인 동작을 구현하도록 만들었다[7,12,13,29,35,52].
하지만 고품질 3D MoCap 데이터를 수집하는 비용과 노동력은 매우 크다. 다수의 숙련된 퍼포머와 특수 캡처 장비가 필요하기 때문이다.
1.1 3D MoCap 데이터의 부족을 대체하기 위한 비디오 활용
고품질 3D MoCap 데이터가 부족한 상황을 보완하고자, 최근 연구들은 비디오를 대안 데이터 소스로 탐색하고 있다. 대부분의 기존 방법[24,30,59,62]은 오프‑더‑쉘프 인간 모션 재구성 기술을 이용해 비디오에서 3D 모션을 추정하고, 이를 물리 기반 스킬 학습에 활용한다.
- 최신 학습 기반 추정 기법은 인간 모션을 재구성하는 데 뛰어난 정확도와 사실성을 보여주지만, 대규모 고품질 3D 데이터에 크게 의존한다. 따라서 인간‑물체 상호작용이나 비인간(동물) 동작처럼 3D 데이터가 희귀한 도메인에는 적용이 제한된다.
- 또한 물리적 제약이 부족한 재구성 결과는 물리적으로 타당하지 않은 포즈를 생성하므로, 이후 모방 단계에서 큰 장애가 된다.
1.2 2D 데이터만을 이용한 직접 모방
반면, 일부 연구는 비디오에서 추출한 2D 모션을 직접 감독 신호로 활용해 다양한 3D 작업에서 성공을 거두었다[3,11,16,33,44]. 2D 키포인트는
- 접근성이 뛰어나며 거의 모든 비디오에서 손쉽게 추출할 수 있다.
- 객체 상호작용이나 비인간(동물) 움직임을 포함한 다양한 스켈레톤에 적용 가능하다.
- 편향되지 않은 2D 증거를 제공해 원본 영상에 존재하는 움직임을 정확히 반영한다.
하지만 2D 데이터만을 사용할 경우 깊이 정보가 결여되어 있다. 2D 프라이어와 기하학적 제약을 결합하면 시각적으로는 타당한 3D 포즈를 얻을 수 있지만, 이러한 포즈는 물리적으로 제한적이며 고품질 모방 데이터로 바로 활용하기 어렵다.
1.3 본 논문의 기여
본 논문에서는 Mimic2DM이라는 일반적인 모방 학습 프레임워크를 제시한다. 이 프레임워크는
- 비디오에서 추출한 2D 모션 데이터만을 사용해 인간‑물체 상호작용(HOI) 및 동물 보행 등 복잡한 물리 기반 스킬을 습득한다.
- 2D 모션을 활용하기 위해 물리 기반 2D 모션 트래킹을 재투영 최소화 문제로 정의하고, 이를 강화학습(RL)으로 최적화한다. 물리적 제약을 포함함으로써, 깊이가 없는 2D 데이터만으로도 물리적으로 올바른 3D 동작을 합성할 수 있다.
- 시점에 구애받지 않는(view‑agnostic) 트래킹 정책을 설계한다. 이는 다양한 시점에서 수집된 2D 데이터를 활용해 보다 현실적인 3D 동작을 학습하게 하며, 다중 시점 트래킹 정책으로 손쉽게 확장할 수 있다.
- 단일 시점 트래킹 학습 효율을 높이기 위해 적응형 초기 상태 초기화 전략과 재투영 오류 기반 조기 종료 기준을 도입한다.
- 마지막으로 계층형 제어 구조에 2D 모션 생성기를 통합해 생성적 작업(새로운 동작 합성 등)까지 확장한다.
실험을 통해 Mimic2DM이 2D 비디오만으로도 축구 공 제어, 로봇 개의 고속 움직임, 다양한 댄스 등을 물리적으로 타당하게 학습함을 입증한다. 또한, 시점에 구애받지 않는 트래킹 정책은 **다중 시점 집계(view‑aggregation)**를 통해 3D 트래킹 정확도를 기존 3D 모션 기반 방법과 동등하게 만든다. 마지막으로, 제안된 자동회귀 2D 모션 생성기는 현재 확산 기반 모델을 능가하는 고품질 2D 시퀀스를 제공한다.
2. 관련 연구
2.1 물리 기반 캐릭터 제어
현실적이고 물리적으로 타당한 캐릭터 행동을 구현하는 것은 컴퓨터 애니메이션의 핵심 목표이자 도전 과제이다. 이를 위해 물리 시뮬레이션을 활용해 가상 캐릭터의 복잡한 동역학과 충돌 상호작용을 모델링한다. 초기 연구들은 전통적인 최적화 기반 제어와 휴리스틱 규칙을 결합해 보행 행동에 초점을 맞추었다[4,5,8,34,57,58].
그 후 **강화학습(RL)**이 도입되면서, 시뮬레이션 캐릭터가 기본 보행부터 고급 스포츠 스킬까지 다양한 복합 기술을 습득하게 되었다[27,28,36,38,2,18]. 그러나 효과적인 보상 함수를 설계하려면 전문 지식이 필요하고, RL 기반 컨트롤러가 생성하는 동작은 종종 불규칙한 패턴을 보인다.
이를 보완하기 위해 MoCap 데이터를 활용해 물리 시뮬레이션 캐릭터 컨트롤러를 학습한다. 방법은
- 명시적 모션 트래킹 보상[1,14,19,26,29]
- 판별기 기반 암시적 스타일 보상[7,31,49]
을 이용해 보다 자연스럽고 일관된 행동을 얻는다.
또한, 학습된 스킬을 다양한 다운스트림 작업에 재활용하기 위해 **잠재공간 기반 생성 모델(VAE, GAN 등)**을 활용해 모션 프리미티브를 저차원 잠재 공간에 매핑한다[20,47,54,55,6,9,10,32,39]. 이러한 접근은 고수준 정책이 사전 학습된 잠재 스킬을 제어하도록 하여 효율적인 전이 학습을 가능하게 한다.
다른 연구 흐름은 보편적인 모션 트래킹 컨트롤러와 키네마틱 모션 생성 모델을 결합한 계층형 제어 프레임워크를 제시한다[15,40,51,37,41,48,52]. 그러나 이들 모두 고품질 3D MoCap 데이터에 크게 의존하므로, 데이터 확보가 어려운 상황에서는 적용이 제한된다.
우리의 접근은 2D 모션 데이터만을 사용해 모방 학습을 수행하므로, 데이터 접근성 및 확장성 측면에서 기존 방법보다 월등히 유리하다.
2.2 비디오로부터 물리 스킬 학습
MoCap에 비해 비디오는 접근성이 뛰어나 물리 기반 스킬 학습에 매력적인 데이터원이다. 초기 연구인 Vondrak 등[43]은 단안 비디오의 실루엣 손실을 최소화함으로써 물리 시뮬레이션 환경에서 점프와 체조 동작을 재현하려 했다.
컴퓨터 비전 기술의 발전으로 비디오에서 3D 인간 포즈를 재구성하는 방법이 가능해졌으며, 이는 물리 기반 캐릭터 컨트롤러 학습에 활용된다. 초기 시도들은 단일 비디오에서 추출한 3D 포즈를 그대로 트래킹하는 방식에 초점을 맞추었다. 예를 들어 Peng 등[30]은 비디오에서 추정한 3D 포즈를 트래킹하는 모션 모방 파이프라인을 제안했으며, Yu 등[59]은 2D/3D 포즈와 발 접촉 정보를 추가해 긴 영상과 동적인 카메라 움직임에서도 민첩한 동작을 합성했다.
새로운 비디오 클립에 대해 매번 물리 기반 모방을 수행하는 비용을 줄기 위해 Yuan 등[61]은 실시간 물리 모션 추정 시스템인 SimPoe를 소개했다. SimPoe는 대규모 3D 모션 데이터셋 AMASS[21]로 사전 학습된 보편적인 물리 트래킹 컨트롤러를 모션 보정기로 활용한다.
최근에는 비디오 데이터가 실험실에서 캡처하기 어려운 복잡한 스킬을 학습하는 데 뛰어난 접근성과 확장성을 보여준다[24,45,46,50,62]. 그러나 비디오에서 얻은 3D 포즈는 물리적으로 신뢰할 수 없으며 많은 후처리와 수동 보정이 필요하다.
우리 방법은 **2D 포즈 시퀀
이 글은 AI가 자동 번역 및 요약한 내용입니다.