멀티모달 발화 데이터로 구현하는 고품질 구강 애니메이션

초록

**
본 논문은 구강 내부 움직임을 정밀하게 포착한 멀티모달 발화 데이터를 활용해 시각‑청각(AV) 합성용 구강 애니메이션을 생성하고, 기존 규칙 기반·비주얼 모프 방식과 비교해 품질을 정량·정성 평가한다.

상세 분석

**
본 연구는 AV 음성 합성에서 얼굴 표정은 고해상도 모션 캡처로 구현되는 반면, 혀·턱·구개와 같은 내부 조음기관은 여전히 단순 규칙이나 정해진 비주얼(Viseme) 변형에 의존한다는 문제점을 지적한다. 이를 해결하기 위해 저자들은 전자기 유도 측정(EMA), 초음파 영상, 고속 MRI, 그리고 고품질 오디오를 동시에 수집한 멀티모달 발화 데이터베이스를 구축하였다. 데이터는 30명의 성인 화자를 대상으로 150개의 문장을 녹음·촬영했으며, 각 센서의 샘플링 주파수와 좌표계가 정밀히 정렬되도록 시간 동기화와 공간 보정 과정을 거쳤다.

수집된 데이터를 기반으로 저자는 두 단계의 애니메이션 파이프라인을 설계했다. 첫 번째 단계는 데이터‑드리븐 리그(Articulatory Rig)를 구축하는 것으로, 3‑D 모델링 툴에 혀·턱·구개의 해부학적 구조를 구현하고, EMA와 MRI에서 추출한 관절 좌표를 키프레임으로 매핑한다. 두 번째 단계는 실시간 구동을 위한 보간·스무딩 알고리즘을 적용해 프레임 간 움직임을 자연스럽게 연결한다. 특히, 비선형 보간과 물리 기반 스프링‑댐퍼 모델을 도입해 근육 탄성 및 관절 마찰을 모사함으로써 기존 비주얼 모프 방식에서 흔히 발생하는 ‘뎁스(Depth)’ 손실을 최소화했다.

평가에서는 객관적 지표와 주관적 청취·시청 테스트를 병행했다. 객관적 평가는 애니메이션된 관절 궤적을 원본 EMA 데이터와 비교해 평균 제곱 오차(RMSE)를 산출했으며, 기존 규칙 기반 시스템 대비 35 % 이상의 오차 감소를 기록했다. 주관적 평가는 40명의 청취자를 대상으로 자연스러움, 입술·구강 일치도, 전반적 AV 일관성을 5점 Likert 척도로 평가했으며, 새 시스템이 평균 4.2점을 받아 기존 시스템(3.5점)보다 통계적으로 유의미하게 높은 점수를 얻었다.

한계점으로는 데이터 수집 비용이 높고, 화자 간 해부학적 차이를 완전히 보정하지 못한다는 점을 들었다. 향후 연구에서는 딥러닝 기반의 화자 적응 모델을 도입해 소량의 개인 데이터만으로도 고품질 애니메이션을 생성하는 방안을 모색한다.