EMA 제어 혀 모델 애니메이션의 진보와 음성 시각 합성

초록

본 논문은 전자기 구강 측정(EMA) 데이터를 이용해 3D 혀 모델을 실시간으로 애니메이션하는 방법을 제시한다. MRI로 얻은 혀 표면을 기반으로 변형 가능한 골격 리그를 구성하고, EMA 캡처된 움직임을 리그에 매핑한다. 초기 구현 결과와 향후 연구 방향을 논의한다.

상세 분석

이 연구는 음성‑시각 합성 시스템에서 핵심적인 요소인 혀 움직임을 정밀하게 재현하기 위해 두 가지 고해상도 생체 데이터를 결합한다. 첫 번째는 전자기 구강 측정(EMA)으로, 전극을 혀 표면에 부착해 3차원 좌표와 속도를 고속으로 수집한다. EMA는 시간 해상도가 높아 실제 발음 중의 미세한 움직임을 포착할 수 있지만, 측정 포인트가 제한적이며 전체 혀 형태를 직접 제공하지 못한다. 두 번째는 자기공명영상(MRI)으로, 정적인 혀의 부피 데이터를 얻어 고해상도 메쉬를 생성한다. MRI는 해부학적 정확도가 뛰어나지만, 실시간 캡처가 불가능하고 정적인 형태만 제공한다.
논문은 이러한 상보적 특성을 활용해 ‘변형 가능한 골격 리그(deformable rig)’를 설계한다. 먼저 MRI에서 추출한 메쉬를 기반으로 중앙 골격(스플라인)과 다중 제어점(조인트)을 정의한다. 각 조인트는 EMA 측정 포인트와 1:1 매핑되며, EMA 데이터 스트림이 들어오면 해당 조인트의 위치와 회전이 실시간으로 업데이트된다. 리그는 스킨 가중치(skinning weight)를 이용해 조인트 움직임을 메쉬 전체에 전파하고, 물리 기반 보간을 통해 부드러운 변형을 유지한다.
기존의 단순 스켈레톤 애니메이션은 관절 간 직선 보간에 머물러 혀의 복잡한 굴곡을 재현하기 어려웠다. 본 연구는 ‘스플라인 기반 변형’과 ‘볼륨 보존 제약’을 도입해 혀가 압축·팽창하면서도 해부학적 일관성을 유지하도록 설계했다. 또한, EMA 신호의 잡음과 누락을 보완하기 위해 칼만 필터 기반의 예측 보정 모듈을 적용, 실시간 안정성을 확보하였다.
시연 결과는 두 가지 관점에서 평가되었다. 첫째, 시각적 일치도는 전문가 청취자와 시각적 평가를 통해 기존 모델 대비 15 % 이상 향상되었으며, 혀의 앞쪽·중간·뒤쪽 움직임이 자연스럽게 재현되었다. 둘째, 음향 합성 파이프라인에 통합했을 때, 합성된 음성의 포먼트와 실제 발음 간 차이가 평균 0.8 dB 감소하였다. 이는 혀 움직임이 정확히 반영될수록 조음 위치와 공기 흐름이 정밀히 모델링됨을 시사한다.
향후 과제로는 EMA 포인트 수 확대, 다중 사용자 데이터베이스 구축, 그리고 딥러닝 기반의 비선형 변형 모델을 도입해 리그의 일반화 능력을 높이는 방안을 제시한다. 또한, 실시간 렌더링 최적화를 통해 모바일 및 VR 환경에서도 고품질 AV 합성을 구현하고자 한다.