시간·상호작용 기반 효율적 인간‑인간 모션 생성 프레임워크
초록
TIMotion은 인간‑인간 상호작용 모션을 생성하기 위해 기존의 두 단계인 ‘시간 모델링’과 ‘상호작용 혼합’을 재구성한다. 인과적 인터랙티브 인젝션(Causal Interactive Injection)으로 두 사람의 동작을 하나의 인과 시퀀스로 결합하고, 역할‑진화 스캐닝(Role‑Evolving Scanning)으로 활성·수동 역할의 교체를 동적으로 반영한다. 또한 로컬 패턴 증폭(Localized Pattern Amplification)으로 짧은 구간의 움직임을 정교하게 보강한다. 이 설계는 다양한 트랜스포머·Mamba·RWKV 기반 혼합 모듈에 적용 가능하며, 파라미터 수를 절감하면서 InterHuman·InterX 데이터셋에서 현존 최고 성능을 달성한다.
상세 분석
TIMotion 논문은 인간‑인간 모션 생성이라는 아직 충분히 탐구되지 않은 영역을 ‘MetaMotion’이라는 추상 프레임워크로 정형화한다. MetaMotion은 ‘시간 모델링’과 ‘상호작용 혼합’ 두 단계로 구성되며, 기존 방법은 첫 단계에서 두 사람의 시퀀스를 단순히 이어 붙이거나, 두 시퀀스를 별도로 처리한 뒤 상호작용만을 교차‑어텐션으로 연결한다. 이러한 설계는 인과 관계를 충분히 반영하지 못하고, 불필요한 파라미터 중복을 초래한다. TIMotion은 이를 해결하기 위해 세 가지 핵심 모듈을 제안한다. 첫째, Causal Interactive Injection은 두 사람의 시퀀스를 시간적으로 교차시켜 하나의 인과 시퀀스(x_cii)로 만든다. 여기서 짝수·홀수 인덱스를 번갈아가며 배치함으로써 현재 프레임의 움직임이 이전 프레임들의 공동 영향을 받는 인과 구조를 명시한다. 둘째, Role‑Evolving Scanning은 활성·수동 역할이 고정되지 않고 상호 교체되는 실제 인간 상호작용을 모델링한다. x_cii와 그 대칭 시퀀스(x_symc ii)를 각각 생성한 뒤 concat하여 최종 입력 X를 만든다. 이렇게 하면 네트워크가 텍스트 의미와 모션 컨텍스트에 따라 두 에이전트의 역할을 동적으로 재배정할 수 있다. 셋째, Localized Pattern Amplification은 전역적인 트랜스포머가 놓치기 쉬운 짧은 구간의 세부 움직임을 1‑D 컨볼루션과 AdaLN을 이용해 보강한다. 이는 각 인물별 로컬 패턴을 추출·강화한 뒤 residual 연결을 통해 원본 시퀀스에 더해, 부드럽고 물리적으로 일관된 모션을 생성한다. 기술적으로는 기존 Diffusion 기반 디노이징 네트워크(ε_θ)와 동일한 학습 목표를 유지하면서, 위 세 모듈을 전처리 단계에 삽입한다. 실험에서는 Transformer, RWKV, Mamba 등 다양한 혼합 백본에 TIMotion을 적용했을 때 파라미터 수는 평균 30% 감소했음에도 불구하고 FID, Diversity, R‑Precision 등 주요 지표에서 기존 최고 성능을 크게 앞섰다. 특히 긴 시퀀스(>200프레임)와 복합 상호작용(예: 악수, 물건 전달)에서 인과적 흐름과 역할 전환을 정확히 포착함을 시각적 사례와 정량적 결과가 뒷받침한다. 전체적으로 TIMotion은 인간‑인간 상호작용 모션 생성에 필요한 인과·역할·로컬 패턴을 통합적으로 고려함으로써, 효율성과 정확성을 동시에 달성한 혁신적 프레임워크라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기