텍스트와 오디오 융합 확산 모델 ExpGest

텍스트와 오디오 융합 확산 모델 ExpGest
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ExpGest는 텍스트와 오디오 정보를 동시에 활용해 전신 제스처를 생성하는 확산 기반 프레임워크이다. 손과 팔에 각각 멜로디와 의미의 가중치를 다르게 부여하고, 노이즈 단계에서 감정 분류기를 통해 감정 스타일을 조정한다. 의미‑제스처 정렬을 위한 잠재공간 대비 학습과 인공 합성 데이터로 부족한 혼합 모달리티를 보완한다. 실험 결과 FGD, 의미 정렬, 감정 일치 측면에서 기존 최첨단 모델을 능가한다.

상세 분석

ExpGest는 기존 연구가 주로 상체만을 대상으로 하거나 오디오 특징에만 의존해 감정·내용·이동성을 충분히 반영하지 못한 문제점을 해결하고자 설계되었다. 핵심 아이디어는 (1) 텍스트와 오디오를 동시에 조건으로 사용해 전신(손, 팔, 다리, 몸통) 제스처를 생성하고, (2) 손과 팔에 멜로디와 의미의 영향을 다르게 가중치 부여해 물리적·청각적 특성을 구분한다는 점이다. 이를 위해 저자는 SMPL‑X 기반 55개의 관절을 rot6D와 3D 위치·속도 등 994 차원의 특성으로 통합하고, 다양한 데이터셋(BEAT, AMASS, 100‑STYLE)을 하나의 형식으로 정규화하였다.

확산 모델 부분에서는 DDPM을 인간 동작에 맞게 변형하였다. 노이즈 단계 t와 조건(c) (텍스트 CLIP 임베딩, 오디오 WaveLM 임베딩, 시드 포즈) 를 모두 MLP/Linear 레이어로 차원 맞춘 뒤, Transformer 기반 디노이저 ϵθt가 노이즈를 예측한다. 기존 이미지‑중심 DDPM과 달리, ExpGest는 예측된 노이즈 대신 원본 인간 표현을 복원하도록 설계해 물리적 제약을 유지한다. 손‑팔 구분 가중치는 멜로디와 의미의 민감도 차이를 관찰한 결과에서 도출되었으며, 손은 음성의 억양 변화에, 팔은 의미적 강조에 더 크게 반응한다는 실험적 근거가 제시된다.

의미 정렬을 위해 저자는 제스처와 텍스트 전사 사이에 공동 잠재공간을 학습한다. VAE 기반 제스처 인코더와 BERT 토크나이저 기반 텍스트 인코더를 각각 학습한 뒤, 전역 평균 풀링을 통해 얻은 임베딩을 CLIP‑스타일 대조 학습(NT‑Xent)으로 정렬한다. 이렇게 정렬된 텍스트 인코더만을 최종 디노이징 과정에 삽입해, 생성된 제스처가 텍스트 의미와 일관되도록 보장한다.

감정 제어는 기존의 원‑핫 임베딩 방식과 달리 ‘노이즈 감정 분류기’를 도입한다. 감정‑제스처 매칭 쌍에 무작위 노이즈를 추가해 학습한 분류기는, 샘플링 단계마다 현재 노이즈 제스처 x_t에 대해 감정 손실의 그래디언트를 계산하고, α·∇L 로 x_t를 업데이트한다. 이 방식은 감정 정보를 디퓨전 그래프와 분리해 원본 의미·멜로디 정보를 손상시키지 않으면서 부드러운 감정 전환을 가능하게 한다.

데이터 부족 문제를 해결하기 위해 저자는 하체(이동)와 상체(제스처)를 분리해 인공적으로 20K개의 텍스트‑오디오‑모션 매칭 쌍을 생성하였다. 실제 데이터와 인공 데이터를 0.6:0.4 비율로 혼합해 학습함으로써, 혼합 모달리티 상황에서도 모델이 안정적으로 동작하도록 했다.

평가에서는 Fréchet Gesture Distance(FGD)로 제스처 품질을, 제안된 Semantic Alignment(SA) 지표로 의미 일치를, 감정 정확도로 감정 정렬을 측정했다. ExpGest는 모든 지표에서 기존 DiffStyleGesture, Emog 등 최첨단 모델보다 우수한 성능을 보였으며, 특히 전신 움직임과 감정 표현에서 눈에 띄는 개선을 확인했다.

전반적으로 ExpGest는 (1) 텍스트·오디오 복합 조건, (2) 손‑팔 가중치 차별화, (3) 의미 정렬을 위한 잠재공간 대비 학습, (4) 노이즈 기반 감정 가이드라는 네 가지 혁신 요소를 결합해, 기존 한계였던 ‘상체‑전용·감정‑부재·멜로디‑무시’ 문제를 효과적으로 극복한다는 점이 가장 큰 의의이다.


댓글 및 학술 토론

Loading comments...

의견 남기기