꽃춤: 효율적이고 정교한 3D 댄스 생성
초록
FlowerDance는 MeanFlow와 물리 일관성 제약을 결합해 몇 단계의 샘플링만으로 고품질 3D 댄스를 생성한다. BiMamba 기반 백본과 채널 수준 교차 모달 융합을 이용해 비자율적(non‑autoregressive) 방식으로 추론 속도와 메모리 사용량을 크게 개선했으며, 편집 기능도 제공한다.
상세 분석
본 논문은 음악‑댄스 생성 분야에서 품질과 효율성 사이의 트레이드오프를 근본적으로 해소하고자 한다. 핵심 아이디어는 두 가지 축으로 구성된다. 첫째, 기존 확산 기반 모델이 요구하는 수십 단계의 노이즈 제거 과정을 대체하기 위해 MeanFlow를 도입한다. MeanFlow는 순간 속도가 아니라 구간 평균 속도를 예측함으로써 학습 목표와 ODE 기반 추론 절차를 정렬한다. 이때 (r, t)라는 두 시점을 무작위로 샘플링해 평균 속도 u(zₜ, r, t)를 학습하고, 평균‑속도 정체성(MeanFlow identity)을 이용해 손실을 정의한다. 결과적으로 몇 단계(보통 3~5)만으로도 고품질 모션을 복원할 수 있다.
둘째, 3D 인간 모션의 물리적 타당성을 보장하기 위해 물리 일관성 제약(Physical Consistency Constraint)을 추가한다. 평균‑속도만을 학습하면 모션이 인간 동작 매니폴드에서 벗어나기 쉬운데, 이를 방지하기 위해 t₁을 샘플링하고 u(zₜ₁, 0, t₁)를 직접 사용해 최종 모션 ẑ₀을 복원한다. 복원된 모션에 대해 재구성 손실(L_rec), 관절 위치 손실(L_pos), 관절 속도 손실(L_vel)을 결합한 복합 손실을 적용한다. 이렇게 하면 뿌리 드리프트, 관절 진동 등 물리적 불안정성을 크게 억제한다.
모델 아키텍처 측면에서는 BiMamba(양방향 Mamba) 백본을 선택했다. Mamba는 선형 복잡도 O(n)와 시계열에 특화된 상태공간 모델(SSM) 구조를 갖추어, 기존 Transformer의 O(n²) 연산량을 대폭 감소시킨다. 또한 양방향성을 통해 음악과 댄스 사이의 양방향 의존성을 자연스럽게 포착한다. 채널 수준 교차 모달 융합(Channel‑Level Cross‑Modal Fusion)은 파라미터가 전혀 없는 단순 연산으로 음악 특징과 장르 라벨을 댄스 특징에 직접 결합한다. 이는 메모리 사용량을 최소화하면서도 비자율적 생성이 가능하도록 한다.
추가적으로 FlowerDance는 샘플링 단계에서 시간‑감쇠 소프트 마스크를 이용한 모션 편집 기능을 제공한다. 사용자는 특정 구간이나 관절을 고정하거나 수정할 수 있으며, 마스크 강도가 시간에 따라 감소함으로써 경계에서의 급격한 변화를 완화한다. 이는 기존 확산 기반 인페인팅이 겪는 경계 아티팩트를 효과적으로 해결한다.
실험 결과는 AIST++와 FineDance 두 대규모 데이터셋에서 SOTA 수준의 정량적 지표(FID, Diversity, Physical Score)를 달성함과 동시에, 추론 속도(FPS)와 파라미터 메모리(Param/M)에서 기존 최첨단 모델들을 크게 앞선다. 특히 4~5 단계 샘플링만으로도 30 FPS 이상의 실시간 추론이 가능해, 고해상도 3D 렌더링과 인터랙티브 애플리케이션에 충분한 여유를 제공한다.
요약하면, FlowerDance는 MeanFlow와 물리 제약을 결합한 새로운 생성 전략, BiMamba 기반 경량 백본, 그리고 파라미터‑프리 교차 모달 융합을 통해 3D 댄스 생성의 품질·효율·편집성을 모두 만족시키는 통합 솔루션을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기