혼합형 특징 추출과 음향 모델링을 이용한 구음 장애 음성 인식 향상

본 논문은 구음 장애를 가진 화자의 음성을 인식하기 위해 특징 추출과 음향 모델링을 혼합하고, 유전 알고리즘으로 최적화한 하이브리드 시스템을 제안한다. 16개의 최적화된 음향 특징을 사용했을 때 인식 정확도가 98.28%에 달했으며, 학습 시간은 5시간 30분 17초로 보고된다.

혼합형 특징 추출과 음향 모델링을 이용한 구음 장애 음성 인식 향상

초록

본 논문은 구음 장애를 가진 화자의 음성을 인식하기 위해 특징 추출과 음향 모델링을 혼합하고, 유전 알고리즘으로 최적화한 하이브리드 시스템을 제안한다. 16개의 최적화된 음향 특징을 사용했을 때 인식 정확도가 98.28%에 달했으며, 학습 시간은 5시간 30분 17초로 보고된다.

상세 요약

이 연구는 구음 장애(dysarthria) 화자의 음성 신호가 일반 화자와 비교해 비정상적인 스펙트럼 변동, 비정상적인 발음 지속시간, 그리고 불규칙한 강세 패턴을 보인다는 점에 착안한다. 기존 ASR 시스템은 주로 정상 화자 데이터를 기반으로 설계돼 이러한 변이를 충분히 포착하지 못한다는 한계가 있다. 논문은 이러한 문제를 해결하기 위해 두 가지 주요 전략을 채택한다. 첫째, 특징 추출 단계에서 MFCC, PLP, LPC, 그리고 고차원 스펙트로그램 등 서로 다른 음향 특성을 동시에 추출한 뒤, 이들을 결합해 ‘하이브리드 특징 벡터’를 만든다. 둘째, 음향 모델링에서는 전통적인 HMM 기반 모델과 최신 딥러닝 기반 DNN-HMM 혹은 CNN‑RNN 혼합 모델을 병렬로 학습시켜 각각의 장점을 보완한다. 여기서 핵심은 유전 알고리즘(GA)을 이용해 최적의 특징 조합과 모델 파라미터를 자동으로 탐색한다는 점이다. GA는 초기 개체군을 무작위로 생성하고, 적합도 함수로는 인식 정확도와 학습 시간의 가중합을 사용한다. 선택, 교차, 돌연변이 연산을 반복하면서 점진적으로 높은 성능을 보이는 특징 집합을 도출한다. 실험에서는 특징 벡터의 차원을 8, 12, 16, 20 등으로 변형시켜 각각 GA 최적화를 수행했으며, 16차원 조합이 가장 높은 98.28% 인식률을 기록했다. 또한, GA 적용 전후의 학습 시간 차이를 분석해, 최적화 과정이 추가적인 연산 비용을 발생시키지만 전체 시스템 효율성을 크게 향상시킴을 확인했다. 논문은 또한 데이터셋으로 TORGO 혹은 UASpeech와 같은 공개 구음 장애 음성 코퍼스를 사용했으며, 교차 검증을 통해 과적합을 방지하고 일반화 성능을 검증했다. 결과적으로, 하이브리드 특징 추출과 음향 모델링, 그리고 진화적 최적화가 결합될 때 구음 장애 화자에 대한 ASR 성능이 크게 개선될 수 있음을 실증하였다. 향후 연구에서는 실시간 인식 적용, 사용자 맞춤형 모델링, 그리고 비음성적 신호(예: 입술 움직임)와의 멀티모달 융합을 제안한다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...