통합 의미 기반 대화 제스처 생성: 대비 흐름 매칭으로 전신 동작을 정교화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 음성·텍스트와 전신 제스처를 하나의 의미 공간에 정렬하고, 의미적으로 부합하지 않는 음성‑텍스트 쌍을 부정 예시로 활용하는 대비 흐름 매칭(Contrastive Flow Matching) 기법을 제안한다. 의미‑인식 복합 모듈(SACM)과 대비 흐름 매칭을 결합해 전신 SMPL‑X 파라미터를 조건부로 생성함으로써, 기존 방법이 주로 리듬 중심의 반복적 제스처를 생성하던 문제를 극복하고, 상징·은유적 제스처와 같은 희소 움직임을 효과적으로 생성한다. BEAT2와 SHOW 데이터셋에서 정량·정성 평가 모두에서 최첨단 성능을 달성하였다.

상세 분석

HolisticSemGes는 두 가지 핵심 혁신을 통해 기존 공동발화 제스처 생성 모델의 한계를 극복한다. 첫 번째는 Semantics‑Aware Composite Module(SACM)이다. SACM은 텍스트(BERT), 오디오(HuBERT) 그리고 1단계에서 학습된 전신 모션 잠재벡터를 각각 전용 프로젝션 헤드를 통해 동일한 차원(d)으로 매핑하고 L2 정규화를 수행한다. 이후 텍스트와 오디오 임베딩을 가중 평균(α)하여 혼합된 의미 벡터를 만든 뒤, 이와 모션 임베딩 사이에 시퀀스‑레벨 코사인 손실과 CLIP‑스타일 InfoNCE 손실을 동시에 적용한다. 코사인 손실은 시간축 전체에 걸쳐 의미와 모션의 정렬을 촉진하고, InfoNCE는 배치 내 다른 샘플들을 부정 예시로 활용해 의미적 구분력을 강화한다. 이중 손실 구조는 텍스트와 음성 간의 의미적 drift를 최소화하면서, 전신 파트 간의 일관된 의미 흐름을 유지한다는 점에서 기존 파트‑별 정렬 방식보다 월등히 우수하다.

두 번째 혁신은 Contrastive Flow Matching(CFM)이다. 전통적인 흐름 매칭은 노이즈를 목표 모션으로 선형 보간하고, 그 경로상의 속도장을 학습한다. 그러나 이 과정에서는 의미적으로 부적합한 경로를 구분할 수 없었다. CFM은 의미적으로 불일치한(음성‑텍스트가 섞인) 조건을 명시적으로 부정 예시로 도입한다. 구체적으로, 동일한 노이즈 z₀와 목표 모션 z₁ 사이를 t∈

통합 의미 기반 대화 제스처 생성: 대비 흐름 매칭으로 전신 동작을 정교화

초록

상세 분석

댓글 및 학술 토론

의견 남기기