프로도르쇼크 I 벵골어 격리 음성 데이터셋과 데이터 증강이 HMM GMM 및 DNN 분류기에 미치는 영향

Prodorshok I는 30개의 벵골어 격리 단어를 35명의 화자로부터 수집한 1,050개의 음성 샘플을 제공한다. 본 연구는 이 데이터셋의 일부를 이용해 HMM‑GMM과 DNN 두 가지 음성 인식 모델을 평가하고, 피치 변환을 통한 간단한 데이터 증강이 정확도에 미치는 효과를 분석한다. 증강 후 HMM‑GMM은 6.12%p, DNN은 7.65%p의 정확도 향상을 보였으며, 화자 독립 시나리오에서는 HMM‑GMM이 96.67%의 높은 정확도를…

저자: Mohi Reza, Warida Rashid, Moin Mostakim

본 논문은 벵골어 음성 인식 분야의 데이터 부족 문제를 해결하고자 “Prodorshok I”라는 격리 단어 데이터셋을 구축하였다. 데이터셋은 방글라데시 다카 지역의 35명 원어민 화자로부터 30개의 일상적인 명령어(숫자 0‑9, 방향, 위치)를 각각 10회씩 녹음해 총 1,050개의 샘플을 제공한다. 이러한 설계는 시각 장애인 등 GUI 기반 인터페이스에 접근하기 어려운 사용자를 위한 음성 기반 보조 기술에 직접 활용될 수 있도록 의도되었다. 데이터 전처리 과정은 다섯 단계로 구성된다. 첫째, 스테레오 채널을 모노로 합친 뒤, 푸리에 변환 기반 노이즈 감소 알고리즘을 적용해 정적 배경 소음을 억제한다. 둘째, 신호를 -1 dB의 최대 진폭으로 정규화하고 평균 진폭을 0 dB로 맞춘다. 셋째, 앞뒤 무음 구간을 잘라내어 실제 발화 구간만 남긴다. 넷째, 전처리된 데이터를 두 개의 서브셋으로 복제하고, 하나에 피치 시프트(pitch shifting)를 적용해 데이터 증강을 수행한다. 이러한 간단한 증강이 모델 학습 시 다양한 음성 변이를 제공함으로써 성능 향상에 기여한다는 것이 실험을 통해 확인되었다. 특징 추출은 전통적인 MFCC 방식을 채택하였다. 25 ms 길이의 프레임으로 신호를 나누고, 각 프레임에 대해 DFT를 수행한 뒤 멜 스케일 필터뱅크를 적용한다. 로그 에너지에 DCT를 적용해 13차원 cepstral 계수를 추출하고, 이를 각 프레임의 특징 벡터로 사용한다. MFCC는 인간 청각 특성을 모사하기 때문에, HMM‑GMM과 DNN 모두에 동일하게 적용해 비교의 공정성을 확보하였다. 두 가지 분류 모델을 구축하였다. 첫 번째는 HMM‑GMM 모델로, 각 단어를 하나의 HMM으로 모델링하고, 관측 확률을 Gaussian Mixture Model로 추정한다. 파라미터 학습은 EM 알고리즘을 통해 수행하고, 테스트 시에는 Viterbi 알고리즘으로 최적 상태 시퀀스를 찾는다. 두 번째는 3계층 피드포워드 DNN으로, sigmoid 활성화 함수를 사용하고, Adam 옵티마이저(learning rate 0.001, β1=0.9, β2=0.999)로 학습한다. 손실 함수는 softmax cross‑entropy이며, 최종 출력은 30개의 클래스(단어) 중 하나를 선택한다. 실험은 화자 독립(speaker‑independent)과 화자 종속(speaker‑dependent) 두 시나리오로 나누어 진행되었다. 화자 독립 설정에서는 데이터 증강 전후의 정확도를 비교했으며, HMM‑GMM은 50.07% → 56.28%(+6.12%p), DNN은 40.19% → 47.84%(+7.65%p)로 향상되었다. 화자 종속 설정에서는 HMM‑GMM이 96.67%라는 매우 높은 정확도를 달성했으며, DNN은 43.75%에 머물렀다. 이는 제한된 화자 수와 발화 횟수에서도 HMM‑GMM이 비교적 강인한 성능을 보인다는 점을 시사한다. 또한, 발화 횟수와 정확도 사이의 상관관계를 분석하였다. 발화 수가 10회에서 35회로 증가함에 따라 HMM‑GMM은 34.93% → 56.28%까지, DNN은 21.53% → 47.84%까지 정확도가 상승하였다. 이는 데이터 양이 충분히 확보될 경우 두 모델 모두 성능이 크게 개선될 수 있음을 보여준다. 논문의 한계점으로는 데이터 규모가 작아 DNN이 충분히 일반화되지 못한 점, 피치 변환 외의 다양한 증강 기법(시간 스트레칭, 잡음 삽입 등)이 적용되지 않은 점, 그리고 하이브리드 모델(HMM‑DNN)이나 더 깊은 신경망 구조에 대한 탐색이 부족한 점을 들 수 있다. 향후 연구에서는 데이터셋을 확대하고, 어휘를 늘리며, 다양한 증강 및 하이브리드 모델을 적용해 화자 독립 성능을 크게 향상시키는 것이 목표이다. 결론적으로, Prodorshok I는 벵골어 음성 인식 연구에 실용적인 기반을 제공하며, 간단한 피치 기반 데이터 증강이 HMM‑GMM과 DNN 모두의 정확도를 의미 있게 향상시킬 수 있음을 입증하였다. 특히 화자 종속 시스템에서는 높은 정확도를 달성했으며, 데이터 양을 늘리면 화자 독립 시스템에서도 충분히 경쟁력 있는 성능을 기대할 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기