스킨 토큰 통합 자동 리깅을 위한 압축 표현

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 스킨 가중치를 연속적인 고차원 회귀가 아니라 이산 토큰 시퀀스로 변환하는 “SkinTokens”를 제안한다. FSQ‑CVAE로 학습된 압축 토큰을 이용해 스켈레톤 파라미터와 함께 하나의 시퀀스로 생성하는 TokenRig 모델을 구축하고, 강화학습 단계에서 기하학·의미 기반 보상을 적용해 복잡하고 OOD(Out‑of‑Distribution) 자산에 대한 일반화 능력을 크게 향상시킨다. 실험 결과 SkinTokens는 기존 방법 대비 98‑133 %의 스키닝 정확도 향상을, 전체 TokenRig은 뼈 예측에서 17‑22 %의 개선을 달성한다.

상세 분석

SkinTokens는 스키닝 매트릭스 W∈ℝ^{N×J}의 고차원·희소성을 고려해, 각 뼈별 가중치 벡터를 FSQ‑CVAE(Finite Scalar Quantized Variational AutoEncoder)로 압축한다. FSQ는 연속값을 미리 정의된 스칼라 코드북에 양자화하고, VAE 구조를 통해 재구성 손실을 최소화하면서도 토큰 시퀀스 길이를 4~6개 정도로 크게 단축한다. 이 과정에서 중첩 드롭아웃과 중요도 샘플링을 도입해, 활성 변형 영역을 우선 학습하도록 설계하였다. 결과적으로 2‑10 % 수준의 희소 비율을 갖는 원본 매트릭스를 0.5 % 이하의 토큰 수로 표현하면서도 복원 정확도를 유지한다.

TokenRig은 이러한 SkinTokens를 스켈레톤 파라미터와 교차시켜 하나의 Transformer 기반 자동 회귀 시퀀스로 만든다. 입력으로는 전역 형태 임베딩(Shape Encoder)과 뼈 위치·계층 정보를 토큰화한 Skeleton Tokens가 제공되며, 디코더는 이전 토큰들을 조건으로 하여 다음 토큰을 예측한다. 이 설계는 스켈레톤과 스키닝 사이의 상호 의존성을 학습하게 하여, 기존에 독립적으로 학습되던 두 단계 사이의 오류 전파를 근본적으로 차단한다.

강화학습 단계에서는 GRPO(Group Relative Policy Optimization)를 활용해 정책을 미세조정한다. 보상 함수는 (1) 볼류메트릭 조인트 커버리지 – 뼈가 전체 메쉬를 골고루 차지하도록, (2) 뼈‑메시 포함성 – 뼈가 메시에 침범하지 않도록, (3) 스키닝 커버리지·희소성 – 토큰이 실제 비제로 가중치를 충분히 재현하도록, (4) 변형 매끄러움 – 애니메이션 시 관절 변형이 급격히 변하지 않도록 설계되었다. 이러한 보상은 특히 비워터프루프 메쉬, 복합 토폴로지, 다리다리형 캐릭터 등 기존 데이터셋에 포함되지 않은 복잡한 형태에 대해 모델이 안정적으로 일반화하도록 만든다.

실험에서는 ArticulationXL 2.0, Rig‑XL 등 최신 대규모 리깅 데이터셋을 사용했으며, 정량적 지표로는 평균 L2 오류, 정밀도·재현율, 그리고 실제 애니메이션 시 시각적 아티팩트 발생 빈도를 평가했다. SkinTokens만 적용했을 때 기존 연속 회귀 기반 방법 대비 스키닝 정확도가 98 %~133 % 향상되었고, TokenRig 전체 파이프라인은 뼈 위치 오차가 17 %~22 % 감소했다. 정성적 평가에서도 복잡한 판타지 생물이나 사족동물 등 OOD 샘플에서 인간 전문가가 만든 리그와 거의 구분이 안 될 정도의 품질을 보여준다.

이 논문의 핵심 기여는 (1) 스키닝 가중치를 효율적인 이산 토큰으로 변환한 새로운 표현 방식, (2) 스켈레톤과 스키닝을 하나의 시퀀스로 통합한 자동 회귀 모델, (3) 기하·의미 기반 보상을 통한 강화학습 미세조정이다. 특히 FSQ‑CVAE와 토큰 기반 시퀀스 모델을 결합함으로써, 고차원 회귀의 불안정성을 근본적으로 해결하고, 대규모 생성형 3D 파이프라인에 바로 적용 가능한 스케일러블한 리깅 솔루션을 제공한다.

스킨 토큰 통합 자동 리깅을 위한 압축 표현

초록

상세 분석

댓글 및 학술 토론

의견 남기기