BVH 애니메이션으로 골격에 생명을 불어넣는 NECromancer
초록
NECromancer는 BVH 형식의 임의 골격에 직접 적용 가능한 보편적인 모션 토크나이저이다. Ontology‑aware Skeletal Graph Encoder(OwO)로 골격 구조와 의미를 임베딩하고, Topology‑Agnostic Tokenizer(TAT)로 시공간 정보를 압축해 토큰화한다. 47 807개의 다양한 종·형태 모션을 모은 Unified BVH Universe(UvU) 데이터셋을 구축해 실험했으며, 높은 압축률에서도 원본 움직임을 충실히 복원하고, 종간 모션 전이·합성·텍스트 검색 등 다목적 활용이 가능함을 보였다.
상세 분석
본 논문은 기존 인간 전용 스켈레톤 기반 모션 토크나이저가 갖는 구조적 제한을 근본적으로 해소한다는 점에서 의미가 크다. 첫 번째 핵심은 Ontology‑aware Skeletal Graph Encoder(OwO)이다. BVH 파일에 포함된 관절 이름, 부모‑자식 관계, 정적 오프셋 정보를 그래프 형태로 변환하고, 다중 그래프 어텐션 레이어를 통해 각 관절에 대한 고유 임베딩을 학습한다. 여기에는 기하학적 손실(관절 간 상대 위치 복원), 위상 손실(최소 공통 조상 예측을 통한 트리 구조 재구성), 의미 손실(관절 이름을 CLIP 텍스트 임베딩과 대비 학습)이라는 세 가지 자기지도 목표가 결합돼, 관절의 위치·연결·의미를 동시에 인코딩한다. 이러한 구조적 사전지식은 토크나이저가 어떤 골격이든 동일한 방식으로 처리하도록 하는 “스켈레톤‑조건부” 역할을 한다.
두 번째 핵심은 Topology‑Agnostic Tokenizer(TAT)이다. 전통적인 VQ‑VAE 기반 토크나이저는 관절 수와 순서에 종속적인 joint‑wise 양자화를 사용하지만, TAT는 각 타임스텝마다 모든 관절 특징을 하나의 가상 “virtual joint” 토큰에 집계한다. 이 가상 토큰은 Transformer‑style 스페이셜‑템포럴 블록을 통해 관절 전체 정보를 요약하고, 이후 Residual Vector Quantization(RVQ)으로 압축한다. 결과적으로 토큰 시퀀스는 골격의 토폴로지와 무관하게 동일한 차원(K)과 코드북을 공유한다. 디코더 단계에서는 가상 토큰에 다시 OwO에서 얻은 관절 임베딩을 결합해, 목표 골격에 맞는 회전값을 복원한다. 이 설계는 “가상 관절 → 토큰 → 실제 관절”이라는 일대다 매핑을 가능하게 하여, 관절 수가 20에서 120까지 달라지는 다양한 종에도 동일한 토크나이저를 적용할 수 있다.
세 번째 기여는 Unified BVH Universe(UvU) 데이터셋이다. HumanML3D, Objaverse‑XL, Truebones Zoo 등 세 개의 공개 모션 컬렉션을 BVH 포맷으로 정규화·필터링하고, 텍스트 설명을 자동 생성·검증해 47 807개의 고품질 시퀀스를 확보했다. 데이터 전처리 단계에서 루트 트랜슬레이션을 루트 관절에 집계하고, 불필요한 관절을 제거해 모든 파일이 단일 트리 구조를 갖도록 통일하였다. 이렇게 구축된 벤치마크는 “seen” 골격과 “unseen” 골격(예: 판타지 생물) 모두에 대한 재구성·검색·생성 성능을 일관되게 평가할 수 있게 한다.
실험 결과, NEC는 압축 비율 r=48에서도 평균 관절 위치 오차가 23 cm 수준으로 인간 수준의 재구성을 달성했으며, R‑Precision@10이 0.78로 기존 RVQ‑VAE 대비 12 % 이상 향상되었다. 또한, 토큰 기반 텍스트‑투‑모션 모델을 학습했을 때, 다양한 종에 걸친 텍스트 입력에 대해 자연스러운 모션을 생성하고, 한 종의 모션을 다른 종에 그대로 전이하는 “cross‑species motion transfer”를 성공적으로 수행했다. 이러한 결과는 토큰 공간이 모션과 골격 구조를 효과적으로 분리(disentangle)했음을 시사한다.
전반적으로 논문은 (1) 골격 구조를 그래프 임베딩으로 명시적으로 모델링, (2) 토폴로지에 독립적인 가상 관절 기반 양자화, (3) 대규모 이종 BVH 데이터셋 구축이라는 세 축을 통해, 모션 토크나이징 분야에 보편성과 확장성을 동시에 제공한다는 점에서 큰 의의를 가진다. 향후 연구는 더 복잡한 비선형 스키닝(예: 스키닝 가중치 변형)이나 물리 기반 시뮬레이션과 결합해, 완전한 4D 콘텐츠 파이프라인을 구축하는 방향으로 확장될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기