실시간 MRI 기반 음소 인식을 위한 해석 가능한 조음 동역학 모델링
초록
본 연구는 실시간 MRI(rtMRI) 영상에서 발음 기관의 시공간 움직임을 압축하고 해석 가능하게 표현하는 방법을 제안한다. 원시 영상, 광학 흐름, 그리고 6개의 언어학적 관심 영역(ROI)을 각각 특징으로 추출하고, 이들 단일 및 다중 조합을 이용해 음소 인식 모델을 학습하였다. 다중 특징 결합 모델이 가장 낮은 음소 오류율(PER) 0.34을 기록했으며, 시간 연속성 및 특정 조음 부위(특히 혀끝·입술)의 중요성이 실험을 통해 확인되었다.
상세 분석
이 논문은 rtMRI가 제공하는 고차원·고노이즈 영상 데이터를 어떻게 효율적인 특징으로 변환할 것인가에 초점을 맞춘다. 먼저 원시 영상은 공간 정보를 그대로 보존하지만 차원 폭이 커서 과적합 위험이 있다. 이를 보완하기 위해 두 가지 보조 특징을 설계하였다. 첫 번째는 광학 흐름(optical flow)으로, 프레임 간 픽셀 이동을 2채널 벡터로 표현한다. MemFlow 사전학습 모델을 활용해 물체 수준의 움직임을 추출하고, 배경 마스크를 적용해 조음 부위만 남겨 노이즈를 억제한다. 두 번째는 6채널 ROI 강도 맵이다. 언어학자들이 정의한 입술 개구, 혀끝, 혀몸통, 구개, 혀뿌리, 후두 영역을 손으로 지정하고, 각 영역의 평균 강도를 정규화해 시계열 벡터로 만든다. ROI는 저차원·노이즈에 강하지만 세밀한 기하학적 변형을 놓칠 수 있다.
모델 아키텍처는 각각의 특징에 대해 공간 인코더(비전 트랜스포머 또는 2D CNN)와 시간 인코더(LSTM·Mamba)를 결합한 뒤, CTC 손실로 음소 시퀀스를 직접 예측한다. 실험에서는 단일 특징 모델과 두 개 특징을 결합한 멀티모달 모델을 비교하였다. 원시 영상 단독 모델이 PER 0.37로 가장 낮았지만, ROI와 원시 영상을 결합했을 때 PER 0.34로 최적의 성능을 달성했다. 이는 ROI가 제공하는 전역적인 조음 요약과 원시 영상이 담고 있는 미세 움직임이 상호 보완적임을 의미한다.
시간 충실도 실험에서는 프레임 순서를 섞거나 역전, 업·다운샘플링하는 등 5가지 변형을 적용했다. 모든 변형에서 PER이 상승했으며, 특히 원시 영상과 광학 흐름은 다운샘플링 시 PER이 0.200.24까지 크게 증가했다. 이는 고주파 움직임, 즉 빠른 조음 전이가 인식에 핵심적임을 보여준다. 반면 ROI는 변형에 비교적 강인했으며, PER 상승폭이 0.020.15에 머물렀다.
ROI 중요도 분석에서는 각 채널을 하나씩 제거하고 PER 변화를 측정했다. 입술 개구(LA)와 혀끝(TT) 제거 시 PER이 각각 0.15, 0.13 상승해 가장 큰 영향을 미쳤다. 이는 양순음·치조음 등 많은 음소가 이 두 조음 부위의 정확한 위치와 정도에 의존한다는 기존 음성학 이론과 일치한다.
전체적으로 이 연구는 rtMRI 데이터를 효율적으로 압축하면서도 해석 가능성을 유지하는 방법을 제시한다. 저차원 ROI는 모델 복잡도를 크게 낮추고, 원시 영상·광학 흐름은 세밀한 동역학 정보를 제공한다. 두 특징을 결합함으로써 성능과 해석 가능성 사이의 트레이드오프를 최소화했으며, 향후 다중 피험자 데이터와 자동 ROI 추출 기술을 도입하면 일반화와 실용성이 더욱 향상될 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기