인더와일드 텍스트 기반 손동작 생성의 새로운 패러다임 CLUTCH
초록
본 논문은 실생활 영상을 활용해 3D 손동작과 텍스트를 대규모로 정렬한 3D‑HIW 데이터셋(32K 시퀀스)을 구축하고, 손동작을 VQ‑VAE 기반 토큰으로 변환하는 SHIFT 토크나이저와, 토큰을 LLM에 입력해 텍스트‑동작 정합성을 높이는 기하학적 정제 단계가 결합된 CLUTCH 모델을 제안한다. 실험 결과, 텍스트‑투‑모션 및 모션‑투‑텍스트 양쪽에서 기존 최첨단 방법들을 크게 앞선 성능을 보이며, 스튜디오 캡처가 어려운 일상 동작(피아노 연주, 요리 등)까지 자연스럽게 생성한다.
상세 분석
CLUTCH 논문은 “핸드 모션을 텍스트와 연결하는” 두 가지 핵심 과제를 동시에 해결한다. 첫 번째는 데이터 부족 문제다. 기존 3D 손동작 데이터셋(GRAB, ARCTIC 등)은 스튜디오에서 제한된 액션만을 캡처했으며, 수천 개 정도에 불과했다. 저자들은 Ego4D·EgoVId5M 같은 대규모 egocentric 영상에 최신 3D 손 트래커(HaW)와 최신 비전‑언어 모델(VILA)을 결합해 자동 주석 파이프라인을 설계했다. 특히 “Parallel Chain‑of‑Thought” 프롬프트를 이용해 오픈‑보카뷸러리 단계에서 풍부한 서술을 생성하고, 이후 사전 정의된 객체·동작 어휘로 닫힌‑보카뷸러리 정제를 수행한다. 이렇게 하면 VLM의 환각을 억제하고, 손‑물체‑행동 관계를 정확히 포착한다. 결과적으로 32 000개의 3D 손동작 시퀀스와 12 M개의 MANO 파라미터를 포함하는 3D‑HIW 데이터셋이 완성된다.
두 번째는 모델링 측면이다. 기존 텍스트‑투‑모션 연구는 단일 VQ‑VAE 토크나이저에 의존했는데, 손은 좌·우, 포즈·트래젝터리 등 다중 모달리티를 갖기에 재구성 품질이 저하되었다. CLUTCH는 SHIFT(Structuring Hands Into Fine‑grained Tokens)라는 새로운 토크나이저를 제안한다. SHIFT는 (1) 포즈와 트래젝터리를 각각 별도 VQ‑VAE에 인코딩하고, (2) 좌·우 손을 독립적인 코드북으로 분리한다. 이렇게 하면 각 파트가 전용 코드 공간을 갖게 되어, 고압축(시간 축 압축) 상황에서도 jitter를 크게 감소시키고, 양손 협동 동작을 더 정확히 재현한다.
LLM 파인튜닝 단계에서는 기존의 다음‑토큰 예측(크로스 엔트로피)만으로는 “토큰 정확도”와 “시각적/기하학적 품질” 사이에 괴리가 있음을 지적한다. 따라서 CLUTCH는 토큰을 샘플링한 뒤 바로 디코딩해 손의 실제 파라미터(위치·회전·관절 각도)로 복원하고, 이 복원값에 대해 L2 재구성 손실을 추가한다. 이 기하학적 정제(Geometric Refinement) 과정은 LLM이 “시각적으로 타당한” 토큰을 선택하도록 유도한다. Gumbel‑Softmax 샘플링을 사용해 미분 가능한 토큰 선택을 가능하게 함으로써, 전체 파이프라인을 엔드‑투‑엔드로 학습한다.
실험에서는 텍스트‑투‑모션에서 FID, R‑Precision, MPJPE 등 여러 지표에서 기존 HumanMDM, MotionGPT, T2M‑GPT 등을 크게 앞섰으며, 모션‑투‑텍스트에서도 BLEU·ROUGE·CIDEr 점수가 최고였다. 특히 “피아노 연주”, “버터 바르기” 등 복합적인 양손 동작에서 jitter와 손가락 간 간격 오류가 현저히 감소했다. 정량적 결과 외에도 정성적 시각화와 사용자 스터디에서 생성된 손동작이 실제 인간의 움직임과 거의 구분되지 않는다는 평가를 받았다.
전체적으로 CLUTCH는 (1) 대규모 인‑더‑와일드 손동작 데이터 구축, (2) 멀티‑모달 토크나이저 설계, (3) 기하학적 정제 기반 LLM 파인튜닝이라는 세 축을 결합해, 텍스트‑조건 손동작 생성 분야에 새로운 벤치마크를 제시한다. 향후 연구는 손‑물체 상호작용을 포함한 전신 동작으로 확장하거나, 실시간 AR/VR 응용에 적용하는 방향으로 진행될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기