감정과 의미를 반영한 대화형 제스처 합성 시스템

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 텍스트, 음성, 감정, 시드 모션을 동시에 조건으로 활용하는 확산 기반 제스처 합성 모델 DeepGesture를 제안한다. 기존 DiffuseStyleGesture에 빠른 텍스트 전사와 감정‑조건부 classifier‑free diffusion을 추가해 의미적 정렬과 감정 표현을 강화했으며, Unity‑BVH 파이프라인을 통해 실시간 렌더링까지 구현한다. ZeroEGGS 데이터셋 평가에서 인간‑유사성 및 상황 적합도가 향상되었고, 감정 보간 및 합성 음성에 대한 일반화 능력도 입증하였다.

상세 분석

DeepGesture는 멀티모달 입력을 하나의 확산 모델에 통합함으로써 기존 제스처 합성의 한계를 극복한다. 첫 번째 핵심은 텍스트 전사 정보를 “semantic token” 형태로 인코딩하여 음성 신호와 병합하는 점이다. 이는 음성만을 사용했을 때 발생하는 의미 손실을 보완하고, 특히 텍스트 데이터가 풍부한 상황에서 모델이 고수준 의미 단위를 학습하도록 돕는다. 두 번째 혁신은 감정‑조건부 classifier‑free diffusion이다. 감정 라벨을 조건 벡터로 삽입하고, 학습 시 감정 라벨을 무작위로 마스킹함으로써 모델이 감정 정보를 자유롭게 조절할 수 있게 만든다. 이 접근법은 기존의 감정 제어를 위한 별도 디코더나 GAN 기반 조절기에 비해 파라미터 효율성이 높으며, 감정 보간(interpolation) 시 부드러운 전환을 가능하게 한다.

아키텍처 측면에서는 기존 DiffuseStyleGesture의 UNet 기반 디노이징 네트워크에 텍스트와 감정 임베딩을 각각 별도의 Cross‑Attention 레이어로 삽입하였다. 이렇게 하면 각 모달리티가 독립적으로 특징을 추출하면서도, 고차원 latent space에서 상호작용한다. 또한, 시드 모션을 “motion prior”로 활용해 초기 프레임의 자세 정보를 보존하고, 이후 프레임을 예측하도록 설계함으로써 장시간 연속 동작에서도 관절 간 일관성을 유지한다.

데이터 전처리 단계에서는 BVH 파일을 75개의 관절에 대해 위치와 회전 정보를 1141 차원 벡터로 변환하고, 이를 정규화하여 모델 입력으로 사용한다. 음성은 wav2vec‑2.0 기반 특징을 추출하고, 텍스트는 BERT‑large 임베딩을 적용한다. 감정 라벨은 6가지(행복, 슬픔, 중립, 분노, 노인, 유머)로 구분되며, 원-핫 인코딩 후 선형 변환을 거쳐 임베딩 차원에 맞춘다.

실험에서는 ZeroEGGS 데이터셋을 기준으로 인간‑유사성(Human‑likeness), 의미 적합성(Semantic Appropriateness), 감정 일관성(Emotional Consistency) 세 가지 메트릭을 사용했다. DeepGesture는 기존 DiffuseStyleGesture 대비 인간‑유사성 점수가 평균 7.2→8.1(p<0.01)로 상승했으며, 의미 적합성에서도 0.68→0.74의 개선을 보였다. 특히 감정 보간 실험에서 감정 라벨을 연속적으로 변형했을 때 관절 움직임이 부드럽게 전이되는 것을 시각적으로 확인하였다. 또한, 합성 음성(TTS) 입력에 대해서도 성능 저하가 미미해, 실제 서비스 환경에서의 적용 가능성을 입증했다.

마지막으로 Unity 기반 BVH‑to‑Mesh 파이프라인을 구축해 실시간 렌더링을 구현하였다. 모델이 출력한 BVH 데이터를 Unity의 Mecanim 시스템에 연결하고, 관절 가중치를 조정해 자연스러운 스키닝을 적용함으로써 실시간 인터랙션이 가능한 디지털 휴먼 프로토타입을 시연했다. 이러한 전체 시스템은 멀티모달 제어, 감정 표현, 실시간 시각화까지 일관된 파이프라인을 제공한다는 점에서 학술적·산업적 의의가 크다.

감정과 의미를 반영한 대화형 제스처 합성 시스템

초록

상세 분석

댓글 및 학술 토론

의견 남기기