음성만으로 전체 혀 윤곽 복원: 실시간 MRI와 딥러닝 융합
초록
본 연구는 실시간 MRI에서 추출한 혀 윤곽을 목표값으로 삼아, MFCC 기반 음성 신호만으로 전체 혀 윤곽을 복원하는 딥러닝 모델을 제안한다. Bi‑LSTM 구조에 자동인코더와 다중태스크(음소 분류) 옵션을 조합해 다양한 아키텍처를 비교했으며, 1프레임(125 ms) 컨텍스트를 이용한 단일‑태스크 모델이 평균 2.21 mm(중위값) 오차를 기록, 가장 높은 정확도를 보였다.
상세 분석
이 논문은 기존 EMA·X‑ray 기반 음성‑조음 역전 연구가 몇 개의 센서 위치에 국한돼 전체 혀 형태를 재현하지 못한다는 한계를 지적한다. 이를 극복하기 위해 저자들은 136 × 136 해상도의 실시간 MRI 영상을 이용해 혀 윤곽을 자동 추출하고, 이를 정답 라벨로 삼았다. 음성 입력은 13차 MFCC와 1차·2차 차분을 포함한 39차원 특징을 25 ms 윈도우, 10 ms 스트라이드로 계산했으며, 앞뒤 5프레임을 포함한 11프레임(총 125 ms) 컨텍스트를 구성했다.
모델은 크게 네 가지 변형을 실험했다. (1) 단일‑태스크 Bi‑LSTM(300‑유닛) → 전결합 → 혀 좌표(100 점) 출력, (2) 위 구조에 자동인코더(16차원 잠재공간) 삽입, (3) 다중‑태스크(음소 43종) 출력 추가, (4) 다중‑태스크와 자동인코더를 동시에 적용. 손실은 회귀용 MSE와 분류용 교차엔트로피를 α=1 비율로 가중합했다.
데이터는 프랑스어 여성 화자 2100문장(≈3.5 h)으로, 178개의 80 s 세션을 80/10/10 비율로 학습·검증·시험으로 분할했다. MRI와 음성은 각각 50 ms와 20 ms 간격이 달라, 선형 보간으로 정렬하였다. 자동 추적은 Mask R‑CNN 기반으로 50개의 (x, y) 좌표를 얻었으며, 평균·표준편차 정규화를 적용했다.
실험 결과, 가장 짧은 컨텍스트(1프레임) 단일‑태스크 모델(ST‑1)이 RMSE 2.52 mm, 중위값 2.21 mm으로 최고 성능을 보였다. 다중‑태스크+자동인코더(MT‑AE)도 RMSE 2.58 mm, 중위값 2.28 mm, 음소 정확도 75.54%로 경쟁력을 갖췄다. 컨텍스트를 확대할수록(3,5,7프레임) 성능이 약간 저하되었으며, 자동인코더만 적용한 경우는 큰 차이를 보이지 않았다. 모델은 급격한 혀 움직임이나 호흡 구간에서 오차가 크게 증가했으며, 이는 입력 특징이 해당 순간의 미세 변화를 포착하지 못함을 의미한다.
비교 대상인 기존 연구는 저해상도 MRI(68 × 68)와 저품질 음성에 의존했으며, 전체 혀 형태를 재현하지 못했다. 본 연구는 고해상도 MRI와 정교한 자동 추적을 활용해 전체 혀 윤곽을 복원함으로써, 음성‑조음 역전 분야에 새로운 가능성을 제시한다. 다만, MRI 기기 내부의 소음(Lombard 효과)과 누워서 말하는 자세가 자연스러운 일상 발화와 차이를 만든다는 한계가 남아 있다. 향후에는 자동 추적 정확도 향상, 원시 이미지와 윤곽을 동시에 학습하는 멀티모달 손실 설계, 그리고 MRI 외 환경에서의 일반화 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기