복합 텍스트‑투‑모션을 위한 이벤트‑레벨 조건화
초록
Event‑T2M은 텍스트 프롬프트를 최소 의미 단위인 “이벤트”로 분할하고, 각 이벤트를 모션‑전용 검색 인코더로 임베딩한 뒤, Conformer 블록 내 이벤트 기반 교차‑어텐션으로 결합한다. 새로 만든 HumanML3D‑E 벤치마크에서 이벤트 수가 증가할수록 기존 모델보다 우수한 정량·정성 결과를 보이며, 인간 평가에서도 순서 보존과 자연스러움에서 뛰어난 성능을 입증한다.
상세 분석
Event‑T2M은 텍스트‑투‑모션 분야에서 “복합 동작”이라는 문제를 근본적으로 재정의한다. 논문은 먼저 “이벤트”를 “텍스트 내에서 가장 작은 의미적으로 자립적인 행동·상태 변화이며, 이를 시간적으로 연속된 모션 구간에 매핑할 수 있는 단위”로 정의하고, 이를 기존의 전역 텍스트 임베딩이 갖는 시간 순서 손실을 보완하는 핵심 단위로 삼는다. 이벤트 추출은 Gemini 2.5 Flash 기반 LLM을 이용해 문장을 절(clause) 단위로 분할하고, 각 절이 (1) 동일 에이전트의 행동, (2) 독립적으로 의미가 통하는지, (3) 연속적인 모션 구간에 대응되는지를 검증한다.
임베딩 단계에서는 기존 CLIP‑ 기반 전역 텍스트 인코더 대신, Motion‑Text Retrieval (TMR) 모델을 사용한다. TMR은 대규모 모션‑텍스트 쌍으로 사전 학습돼, 모션 특화된 의미 공간을 제공한다. 각 이벤트는 TMR 인코더를 통해 D_y 차원의 이벤트 토큰 E_k 로 변환되고, 전체 프롬프트에 대한 전역 토큰 G도 동일 인코더로 얻어 전역 의미를 보조한다.
모델 아키텍처는 10‑step DDPM 기반 확산 네트워크에 Conformer 블록을 N번 쌓은 형태다. 각 블록은 (1) Local Information Modeling Module(LIMM) – 깊이·점별 1D 컨볼루션으로 짧은 시간 스무딩을 담당, (2) Adaptive Textual Information Injector(ATII) – 다운샘플된 모션 피처와 전역 텍스트 G를 채널‑와이즈 게이팅해 지역적 텍스트 정보를 강화, (3) ConformerSA와 ConformerConv – 장·단기 시퀀스 모델링, (4) Event‑based Cross‑Attention(ECA) – 현재 모션 컨텍스트를 쿼리로, 이벤트 토큰을 키·밸류로 사용해 이벤트‑레벨 의미를 직접 주입한다. ECA는 스케일링 파라미터 γ를 0에 가깝게 초기화해 학습 초기 불안정을 완화하고, 다중 헤드 어텐션을 통해 이벤트 순서를 정확히 반영한다.
학습 목표는 표준 DDPM 손실에 이벤트·전역 텍스트 조건을 추가한 L2 손실이며, 텍스트 드롭아웃(확률 τ)으로 무조건부 경로를 만들고, 추론 시 Classifier‑Free Guidance(CFG)를 적용해 조건부·무조건부 예측을 혼합한다. 이렇게 하면 텍스트와 모션의 정렬을 강화하면서도 다양성을 유지한다.
실험에서는 기존 HumanML3D와 KIT‑ML 표준 테스트에서 R‑Precision, FID, MM‑Dist 등 모든 지표에서 최첨단 수준을 유지한다. 특히 HumanML3D‑E라는 새 벤치마크를 구축해 프롬프트를 이벤트 수(1~5)별로 계층화했으며, 이벤트 수가 늘어날수록 Event‑T2M은 R‑Precision이 0.52→0.71, FID가 0.68→0.45 등 현저히 개선된다. 인간 평가에서는 (1) 이벤트 정의의 타당성, (2) HumanML3D‑E의 신뢰성, (3) 생성된 모션의 순서 보존·자연스러움에서 기존 모델을 능가한다는 결과가 나왔다.
핵심 기여는 (①) 이벤트라는 새로운 중간 표현을 도입해 텍스트‑모션 정렬을 세밀하게 제어, (②) 모션‑전용 검색 인코더와 이벤트 기반 교차‑어텐션을 결합한 확산 프레임워크, (③) 복합 동작을 정량·정성 평가할 수 있는 이벤트‑수 기반 벤치마크를 제공한다는 점이다. 이 접근법은 단일 행동에 국한된 기존 연구 흐름을 넘어, 실제 애니메이션 파이프라인·비디오 제작·임베디드 에이전트 등에서 요구되는 복합 행동 생성에 직접 적용 가능하다.
댓글 및 학술 토론
Loading comments...
의견 남기기