다양한 동물 골격에 텍스트로 움직임을 생성하는 토폴로지‑무관 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 140종 32,979개의 동물 모션을 포함한 대규모 데이터셋 OmniZoo와, 텍스트 프롬프트와 임의의 골격 토폴로지를 동시에 입력으로 받아 움직임을 생성하는 토폴로지‑인식 스켈레톤 임베딩 모듈을 제안한다. 일반화된 잔차 VQ‑VAE와 마스크 트랜스포머 기반의 자동회귀 모델을 통해 물리적으로 일관되고 의미적으로 정렬된 동물 동작을 생성하며, 종 간 스타일 전이까지 가능하게 한다.

상세 분석

이 연구는 기존 동물 모션 생성 연구가 갖는 두 가지 근본적인 한계를 동시에 해소한다. 첫 번째는 데이터 부족이다. 기존 공개 데이터셋은 수천 개 수준에 머물러 종 다양성과 동작 종류가 제한적이었다. 저자들은 Truebones Zoo와 게임 엔진 기반 Planet Zoo를 결합해 140종, 32,979개의 시퀀스를 수집하고, 각 시퀀스에 텍스트, 비디오, 메쉬 등 4가지 멀티모달 정보를 부착했다. 특히 LLM(예: Qwen, VideoLLaMA3, LLaVA)을 활용해 자동으로 풍부한 텍스트 설명을 생성함으로써 라벨링 비용을 크게 낮추었다. 데이터 전처리 단계에서 골격을 정규화하고, 패딩·마스크 기법을 도입해 서로 다른 관절 수를 일관된 텐서 형태로 변환한다는 점이 눈에 띈다.

두 번째는 모델 차원에서의 일반화이다. 기존 인간·동물 모션 생성 모델은 SMPL 등 고정 템플릿에 의존해 관절 구조가 바뀌면 바로 사용이 불가능했다. 저자들은 ‘Generalized Motion Residual VQ‑VAE’를 설계해, 입력 골격을 최대 관절 수에 맞춰 패딩하고 마스크를 통해 유효 관절만 학습에 참여하도록 했다. 잔차 양자화 계층을 여러 단계 두어 고해상도 토큰을 얻고, 이를 자동회귀 트랜스포머에 입력한다. 핵심은 ‘Topology‑aware Skeleton Embedding Module’이다. 각 관절의 3D 좌표와 관계 타입(부모·자식·형제 등), 최단 토폴로지 거리 행렬을 그래프‑기반 어텐션 바이어스로 주입하고, 전역 CLS 토큰을 통해 전체 구조를 요약한다. 이렇게 얻어진 스켈레톤 임베딩과 텍스트 임베딩을 동일 차원의 토큰 공간에 결합함으로써, 텍스트와 골격이 서로 다른 도메인임에도 불구하고 하나의 조건으로 취급한다.

모델은 두 단계 트랜스포머(마스크 트랜스포머 → Residual 트랜스포머)로 구성돼, 마스크 토큰을 이용해 부분적인 시퀀스를 복원하면서 텍스트·골격 정보를 점진적으로 반영한다. 학습 목표는 마스크된 관절 재구성 손실과 잔차 양자화 손실을 결합한 복합 손실이며, 이는 물리적 일관성과 토큰 표현의 정밀성을 동시에 보장한다.

실험에서는 다양한 종과 동작에 대해 정량적(프리시전·리콜, 물리 기반 충돌 검사) 및 정성적(전문가 평가) 결과를 제시한다. 특히 ‘cross‑species motion style transfer’를 수행했을 때, 원본 종의 동작 리듬을 유지하면서 목표 종의 골격에 맞는 변형을 성공적으로 생성한다는 점이 주목할 만하다. 한계점으로는 시뮬레이션 기반 데이터가 실제 촬영 데이터와 차이가 있을 수 있고, LLM‑생성 텍스트가 인간 전문가 수준의 정확성을 보장하지 못한다는 점을 들 수 있다. 또한 현재 모델은 실시간 생성보다는 오프라인 배치 처리에 최적화돼 있어, 로봇 제어나 인터랙티브 게임 등에 바로 적용하기엔 추가 최적화가 필요하다.

전반적으로 데이터와 모델 양쪽에서 토폴로지 무관성을 설계한 점은 동물 애니메이션, 로봇 동작 계획, 가상 현실 등 다양한 분야에 새로운 가능성을 열어준다.

다양한 동물 골격에 텍스트로 움직임을 생성하는 토폴로지‑무관 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기