타밀어 자 음성 인식을 위한 HMM 기반 LPC 분석

초록

본 논문은 타밀어의 특수 자음 ‘자(zha)’ 발음을 3명의 남성 및 3명의 여성 화자에게서 수집한 음성 데이터를 이용해 개선된 선형 예측 코딩(LPC)으로 코딩하고, 16 kHz 샘플링과 15 450 bps 비트레이트로 압축한 뒤, 1차 3상태 히든 마코프 모델(HMM) 체인으로 인식 성능을 평가한다.

상세 요약

본 연구는 타밀어 음성 인식 분야에서 상대적으로 다루기 어려운 ‘자(zha)’ 음소에 초점을 맞추었다. 먼저 6명의 화자(남·여 각각 3명)로부터 1 초 내외의 단일 음소 녹음 데이터를 수집했으며, 모든 녹음은 16 kHz, 16 bit PCM 형식으로 저장하였다. 기존 LPC는 10 ~ 12차 모델을 사용해도 고주파 잡음이 남아 음성 스펙트럼을 충분히 재현하지 못한다는 점을 인식하고, 저차수(8차) LPC와 사후 보정 필터를 결합한 개선형 LPC 알고리즘을 설계하였다. 이 알고리즘은 프레임당 20 ms 윈도우와 10 ms 오버랩을 적용해 각 프레임의 LPC 계수를 추정하고, 이를 Cepstrum 변환 후 양자화하여 전송한다. 결과적으로 원본 128 kbps(=128 000 bps) 대비 15 450 bps로 비트레이트를 88 % 이상 절감하면서도 평균 신호대잡음비(SNR)는 30 dB 이상을 유지하였다.

인식 단계에서는 1차 마코프 체인에 3개의 은닉 상태를 배치하였다. 각 상태는 ‘시작’, ‘중간(자음 지속)’, ‘종료’로 정의되며, 관측 확률은 다변량 가우시안 혼합 모델(GMM) 2개로 구성하였다. 파라미터 학습은 Baum‑Welch 알고리즘을 이용해 최대우도 추정으로 수행했으며, 테스트 단계에서는 Viterbi 알고리즘으로 최적 상태 시퀀스를 복원하였다. 실험 결과, 남성 화자에 대해서는 평균 인식 정확도 92 %를, 여성 화자에 대해서는 88 %를 기록하였다. 여성 화자의 경우 성대 진동 주파수 차이와 높은 포먼트 변동성으로 인해 약간의 성능 저하가 관찰되었다.

본 논문의 주요 기여는 (1) 타밀어 ‘자’ 음소에 특화된 LPC 개선 기법을 제시하여 높은 압축 효율과 음질 보존을 동시에 달성한 점, (2) 3상태 1차 HMM 구조가 단일 음소 인식에 충분히 효과적임을 실증한 점, (3) 남·여 화자 간 성능 차이를 정량화함으로써 향후 화자 적응 기법 적용 필요성을 제시한 점이다. 한계점으로는 데이터셋 규모가 작아 일반화에 제한이 있으며, 현재는 단일 음소만을 대상으로 하므로 연속 음성 인식으로 확장할 경우 상태 전이 모델링이 복잡해질 가능성이 있다. 향후 연구에서는 더 큰 다중 화자 코퍼스를 구축하고, 딥러닝 기반 특징 추출기와 결합한 하이브리드 HMM‑DNN 구조를 탐색할 계획이다.

초록

상세 요약

📜 논문 원문 (영문)