페르시아어 음소 인식 딥러닝 모델

본 논문은 페르시아어 음소 인식의 정확성을 높이기 위한 새로운 접근법을 제시한다. 서론에서는 인간의 청각이 음소 수준에서 언어를 인식하는 과정을 모방하는 것이 음성 인식 시스템의 궁극적인 목표임을 강조하고, 기존의 MFCC 기반 방법이 시간‑주파수 해상도에서 한계가 있음을 지적한다. 이를 해결하기 위해 저자는 단시간 푸리에 변환(STFT)을 이용해 음성 신호를 고해상도 스펙트로그램으로 변환하고, 이를 딥러닝 모델의 입력으로 활용한다. 방법론 파트에서는 STFT 파라미터 설정(윈도우 길이 25 ms, 홉 사이즈 10 ms, 해밍 윈도우)과 스펙트로그램 정규화 과정을 상세히 설명한다. 변환된 스펙트로그램은 2차원 이미지 형태로 CNN에 입력되며, 네트워크 구조는 5개의 합성곱‑풀링 블록과 2개의 완전 연결층으로 구성된다. 각 합성곱 층은 3×3 필터를 사용하고, ReLU 활성화와 배치 정규화를 적용한다. 드롭아웃(0.5)과 L2 정규화(λ=0.0001)를 통해 과적합을 방지한다. 최적화는 Adam(β1=0.9, β2=0.999)으로 수행하고, 초기 학습률 0.001에서 30 epoch 동안 학습한다. 실험 설계에서는 페르시아어의 대표적인 두 음소 구문(“آب”, “یک”)을 각각 2000개씩 수집하고, 데이터 증강(시간 스트레칭 ±10%, 피치 변환 ±2 semitone, 백색 잡음 SNR 20 dB)으로 총 8000개의 학습 샘플을 만든다. 데이터는 80% 훈련, 10% 검증, 10% 테스트 비율로 분할한다. 비교 실험으로는 기존 MFCC‑DNN(3층 완전 연결)과 MFCC‑CNN(2층 합성곱) 모델을 사용한다. 결과에서는 제안된 STFT‑CNN 모델이 테스트 정확도 94.3%를 기록했으며, MFCC‑DNN(88.7%)과 MFCC‑CNN(90.1%)보다 각각 5.6%p, 4.2%p 높은 성능을 보였다. 특히 “ب”와 “پ”, “ت”와 “ث” 등 발음이 유사한 음소 사이에서 혼동이 크게 감소했다. 혼동 행렬 분석을 통해 고주파 영역에서 일부 오류가 남아 있음을 확인했으며, 이는 고주파 잡음에 대한 민감도가 원인으로 추정된다. 또한, 학습 곡선은 15 epoch 이후 수렴함을 보여 모델이 비교적 빠르게 안정화됨을 알 수 있다. 논의에서는 STFT가 시간‑주파수 정보를 풍부하게 제공함으로써 음소 구분에 유리함을 강조하고, CNN이 공간적 패턴을 효과적으로 학습함을 확인한다. 한계점으로는 데이터셋 규모가 제한적이며, 다양한 화자와 방언을 포함하지 않았다는 점을 들며, 향후 연구에서는 대규모 다중 화자 데이터와 멀티‑스케일 특징 결합, 그리고 Transformer 기반 모델 적용을 제안한다. 결론적으로, 본 연구는 페르시아어 음소 인식에서 STFT와 딥러닝의 결합이 높은 정확도를 달성할 수 있음을 실증적으로 보여준다.

페르시아어 음소 인식 딥러닝 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기