MFCC 기반 억양 인식 분류기 비교
초록
본 논문은 멜 주파수 켑스트럼 계수(MFCC)를 이용해 미국 억양과 비미국 억양을 구분하는 이진 분류 문제를 다룬다. 330개의 음성 샘플(US 165, non‑US 165)의 MFCC 평균 벡터를 특징으로 사용하고, LDA, QDA, RBF‑SVM, 다항식‑SVM, k‑NN( k=3) 다섯 가지 분류기의 정확도와 연산 시간을 비교하였다. 교차 검증(500회) 결과 k‑NN이 가장 높은 평균 정확도(≈95 %)와 가장 짧은 실행 시간(≈1 초)을 보였다.
상세 분석
본 연구는 음성 신호를 시간 영역에서 주파수 영역으로 변환한 뒤, 멜 스케일에 매핑하여 12~39개의 MFCC를 추출하고, 각 음성에 대해 MFCC 행렬의 열 평균을 하나의 고정 길이 벡터로 요약한다. 이와 같이 차원을 크게 축소한 특징 벡터는 LDA와 QDA와 같은 선형·비선형 판별 분석, RBF와 2차 다항식 커널을 사용하는 서포트 벡터 머신(SVM), 그리고 거리 기반 비모수 방법인 k‑최근접 이웃(k‑NN) 알고리즘에 입력된다.
데이터는 22명의 화자(남·여 각각 11명)로부터 15개의 단어를 각각 1초 내외 길이로 녹음한 330개의 음성 파일이며, 배경 잡음이 없는 깨끗한 환경에서 수집되었다. 클래스는 미국 억양과 비미국 억양으로 균등하게 구성되었으며, 성별 불균형은 존재하지만 본 연구에서는 억양 구분에만 초점을 맞추었다.
교차 검증은 층화 무작위 샘플링을 이용해 500번 반복했으며, 정확도는 (TP+TN)/N 로 정의하였다. MFCC 개수를 12, 19, 26, 33, 39로 변화시키면서 각 분류기의 평균 정확도를 측정한 결과, 전반적으로 MFCC 수가 증가할수록 정확도가 향상되었으나 30개 이상에서는 수렴 현상이 나타났다. 특히 k‑NN은 33개의 MFCC에서 0.9586의 최고 정확도를 기록했으며, LDA는 0.7353에 그쳐 다른 방법에 비해 현저히 낮았다.
연산 시간 측면에서는 k‑NN이 모델 학습 단계가 없고 거리 계산만 수행하기 때문에 가장 빠른 편이었다. 33개의 MFCC 기준으로 k‑NN은 약 1.03초, RBF‑SVM은 12.36초, 다항식‑SVM은 12.36초, QDA는 14.46초, LDA는 14.87초가 소요되었다. 이는 k‑NN이 실시간 혹은 저사양 환경에서 억양 인식에 유리함을 시사한다.
한계점으로는 MFCC 평균만을 사용함으로써 각 계수의 분산이나 시간적 변동성을 무시했으며, 이는 잠재적인 정보 손실을 야기한다. 또한 데이터 규모가 작고 잡음이 없는 이상적인 조건이므로, 실제 환경에서의 잡음 강인성은 검증되지 않았다. 향후 연구에서는 평균·분산 결합 특징, 가우시안 혼합 모델, 딥러닝 기반 스펙트로그램 입력 등을 탐색하고, 잡음이 포함된 대규모 코퍼스를 활용해 일반화 성능을 평가할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기