컨트롤 가능한 스타일 가이드 모션 디퓨전 기반 댄스 생성
초록
본 논문은 음악과 사용자 지정 스타일 프롬프트를 동시에 활용하여, 공간‑시간 마스킹 기법으로 세밀한 제어가 가능한 댄스 생성 모델 SGMD(Style‑Guided Motion Diffusion)를 제안한다. 변형 가능한 디퓨전 프레임워크에 경량 스타일 모듈을 삽입하고, 트래젝터리 기반 생성, 인‑비트윈, 인페인팅 등 세 가지 컨트롤 태스크에 대한 새로운 벤치마크를 구축해 정량·정성 평가를 수행하였다. 실험 결과, SGMD는 기존 음악‑조건 기반 디퓨전 모델 대비 스타일 일관성, 움직임 자연스러움, 제어 정확도에서 우수함을 보였다.
상세 분석
SGMD는 기존 Human Motion Diffusion(HDM) 구조에 두 가지 핵심 확장을 더한다. 첫 번째는 스타일 모듈(Style Modulation, SM)이다. SM은 입력 토큰 z와 스타일 프롬프트 s를 선형 변환 후 스케일링(r)하여 z와 원소별 곱을 수행한다(식 5). 이는 FiLM 방식과 유사하지만, 평균·분산을 직접 조정하지 않으므로 콘텐츠(음악·포즈) 특성을 보존하면서 스타일 정보를 효율적으로 주입한다. 스타일 프롬프트는 원-핫, 장르명, GPT‑3이 생성한 텍스트 설명 등 세 가지 형태를 지원하며, 사전 학습된 임베딩을 사용해 파라미터 증가를 최소화한다.
두 번째 확장은 공간‑시간 마스킹(Spatial‑Temporal Masking)이다. 사용자가 제공한 부분적인 포즈 시퀀스(예: 특정 구간의 손동작 또는 전체 트래젝터리)를 마스크로 지정하면, 모델은 해당 마스크 영역을 고정하고 나머지 영역을 디퓨전 과정에서 노이즈를 주입·제거하며 복원한다. 구체적으로, 알려진 시퀀스 x₀를 목표 길이에 맞게 패딩하고, t‑1 단계에서 노이즈를 추가한 xₖₙₒʷₜ₋₁을 생성한 뒤, 디퓨전 역전 과정에서 마스크된 부분을 그대로 유지한다(식 8‑9). 이 메커니즘은 트래젝터리 기반 생성, 인‑비트윈(중간 프레임 보간), 인페인팅(손실된 구간 복원) 등 다양한 편집 시나리오를 하나의 프레임워크로 통합한다.
학습 단계에서는 classifier‑free guidance 방식을 차용해 음악 조건 c와 스타일 s를 일정 확률로 제거(∅)한다. 이는 모델이 조건이 없는 경우에도 강인하게 동작하도록 하며, 추론 시 가중치 w>1을 통해 음악 조건의 영향을 증폭한다(식 6). 또한, 물리적 일관성을 위해 관절 위치 손실 L_j, 속도 손실 L_v, 발 접촉 손실 L_f을 결합한 다중 손실(L_d + λ_jL_j + λ_vL_v + λ_fL_f)로 최적화한다(식 7).
실험에서는 AIST++, LAFAN1 등 대규모 댄스 데이터셋을 사용해 3가지 컨트롤 태스크를 정의하고, 기존 GAN·Transformer 기반 모델, 최신 디퓨전 모델(Tseng et al., Luo et al.)과 비교하였다. 정량 지표(FID, Diversity, Style Consistency)와 사용자 설문을 통해 SGMD가 스타일 반영 정도와 제어 정확도에서 현저히 높은 점수를 얻었다. 특히, 스타일 설명 프롬프트를 활용했을 때 텍스트‑음악‑동작 간 의미적 정합성이 크게 향상되었으며, 마스킹 기반 편집에서는 원본 움직임의 연속성을 유지하면서도 지정된 구간을 정확히 재구성했다.
전체적으로 SGMD는 (1) 경량 스타일 모듈을 통한 스타일‑조건화, (2) 마스크 기반 공간‑시간 제어, (3) classifier‑free guidance와 물리 손실을 결합한 학습 전략이라는 세 축으로 기존 음악‑조건 디퓨전 모델의 한계를 극복한다. 향후에는 멀티모달 텍스트‑음악‑비주얼 프롬프트와 실시간 인터랙션을 위한 경량화, 그리고 대규모 사전 학습된 언어 모델과의 공동 학습을 통해 더욱 풍부한 창작 도구로 확장될 가능성이 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기