에포크와 MFCC를 결합한 DNN HMM 기반 화자 적응 감정 인식

본 논문은 음성 신호가 음성기관(보컬 트랙트)과 자극원(성대 진동)의 복합 작용으로 생성된다는 전제 하에, 감정 인식에 자극원 정보를 활용하는 새로운 접근법을 제시한다. 서론에서는 감정 인식이 인간‑컴퓨터 상호작용, 콜센터, 심리 치료 등 다양한 분야에 응용될 수 있음을 강조하고, 기존 연구들이 주로 MFCC, LPCC, prosodic 특징에 의존해 왔으며, 자극원 특징은 충분히 탐구되지 않았다고 지적한다. 데이터베이스는 IEMOCAP와 IITKGP‑SESC 두 가지를 사용했으며, 본 연구에서는 IEMOCAP의 4가지 감정(행복, 분노, 슬픔, 중립)만을 대상으로 실험을 진행한다. IEMOCAP는 10명의 배우가 5개의 세션에 걸쳐 약 12시간 분량의 대화를 제공한다. 에포크 검출은 Zero‑Time‑Windowing(ZTW) 방법을 기반으로 한다. 먼저 Zero‑Frequency‑Filtered Signal(ZFFS)의 위상을 이용해 유성 구간을 판별한다. 이후 차분, 제로패딩, 두 단계의 윈도우(h₁, h₂) 적용, Numerator Group Delay(NGD) 계산, Hilbert Envelope을 구해 에너지 피크를 강조한다. 세 개의 가장 큰 피크를 합산한 스펙트럼 에너지 프로파일을 5‑point 평균 스무딩 후, 평균 피치 주기에 해당하는 Gaussian 필터와 컨볼루션한다. 스퍼리어스 피크는 최소 2 ms 간격 기준과 음성 신호의 부호 변화를 통해 제거한다. 최종적으로 얻어진 에포크 위치에서 순간 피치, 강도(SOE), 위상 세 가지 특징을 추출한다. 순간 피치는 인접 에포크 간 시간 차의 역수, SOE는 인접 에포크 강도 차이, 위상은 분석 신호의 코사인값으로 정의된다. MFCC 특징은 13차원 벡터를 20 ms 프레임(10 ms 오버랩)으로 추출하고, Hamming 윈도우와 cepstral mean normalization을 적용한다. 모델링 단계에서는 각 감정 클래스를 위한 HMM을 설계하고, 각 HMM 상태의 출력 확률을 DNN으로 추정한다. DNN은 입력 특징( MFCC, 에포크, 혹은 결합) → 은닉층(5~6개) → 소프트맥스 출력 구조이며, 교차 엔트로피 손실과 SGD(또는 Adam) 최적화로 학습한다. 화자 적응은 MAP 기반의 적응 기법을 적용해 화자별 파라미터를 미세 조정한다. 실험 결과는 다음과 같다. MFCC만 사용했을 때 평균 정확도는 59.25 %, 에포크만 사용했을 때 54.52 %를 기록했다. 두 특징을 결합했을 때는 64.20 %로 가장 높은 성능을 보였으며, 이는 약 5 %p의 절대적 향상을 의미한다. 감정별 상세 정확도는 특히 분노와 행복 같은 고각성(arousal) 감정에서 에포크 특징이 큰 기여를 함을 확인할 수 있다. 또한, 에포크 특징이 단독으로는 스펙트럼 정보를 완전히 대체하지 못하지만, MFCC와 보완적인 정보를 제공함을 실증한다. 논문의 한계로는 에포크 검출 과정이 복잡하고 연산 비용이 높아 실시간 시스템에 바로 적용하기 어렵다는 점, 그리고 감정 클래스가 4가지에 국한되어 있어 다중 감정(예: 놀람, 혐오 등) 확장에 대한 검증이 부족하다는 점을 들었다. 향후 연구에서는 경량화된 ZTW 구현, LSTM·Transformer 기반 시계열 모델과의 융합, 그리고 다국어·다문화 데이터셋을 활용한 일반화 검증을 제안한다. 결론적으로, 자극원 기반 에포크 특징과 전통적인 MFCC를 결합하고, DNN‑HMM 화자 적응 모델을 적용함으로써 감정 인식 정확도를 의미 있게 향상시킬 수 있음을 보여준다.

에포크와 MFCC를 결합한 DNN HMM 기반 화자 적응 감정 인식

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기