ASR 기반 특징으로 감정 인식 성능 향상

본 논문은 대규모 음성‑텍스트 매핑을 학습한 자동음성인식(ASR) 모델의 내부 표현을 감정 인식에 활용한다. 15계층 · 1920개의 게이트형 유닛(GCU)으로 구성된 WaveNet‑유사 ASR에 입력 음성을 MFCC로 변환해 통과시키고, 각 층의 평균 활성화를 특징으로 추출한다. 선택된 100개의 신경 특징을 선형 회귀에 적용해 IEMOCAP 데이터셋의 활력(arousal)과 가치(valence) 차원을 예측했으며, 기존 hand‑crafte…

저자: Noe Tits, Kevin El Haddad, Thierry Dutoit

ASR 기반 특징으로 감정 인식 성능 향상
본 논문은 감정 인식, 특히 활력(arousal)과 가치(valence)라는 연속적 정서 차원을 예측하기 위해 자동음성인식(ASR) 시스템의 내부 표현을 특징으로 활용하는 전이 학습 접근법을 제안한다. 서론에서는 딥러닝이 음성 합성·인식 분야에 혁신을 가져왔지만, 감정 표현 제어는 여전히 데이터 부족과 복합적인 멀티모달 특성 때문에 어려움을 겪고 있음을 언급한다. 감정 차원은 음성 신호의 물리적 변동과 텍스트의 의미적 내용 두 축에 모두 영향을 받으며, 기존 연구에서는 hand‑crafted eGeMAPS와 같은 음향 기반 특징이 주로 사용되어 왔다. 연구 방법에서는 먼저 VCTK 데이터(44 시간, 109명 화자)로 사전 학습된 WaveNet‑유사 ASR 모델을 특징 추출기로 사용한다. 이 모델은 15개의 블록과 각 블록당 128개의 게이트형 유닛(GCU)으로 구성되어 총 1920개의 뉴런을 포함한다. 입력 음성은 20차원 MFCC로 압축되어 모델에 전달된다. IEMOCAP 데이터셋(12 시간, 10명 화자, 10039 발화)에서 각 발화에 대해 모든 GCU의 평균 활성화를 계산하고, 이를 ‘신경 특징’이라 정의한다. 차원 수가 과다하므로 Fisher 점수를 이용해 가장 정보량이 높은 100개 특징을 선택한다. 선택된 특징은 scikit‑learn의 선형 회귀 모델에 입력되어 활력과 가치 값을 예측한다. 모델 학습은 평균 제곱오차(MSE)를 최소화하는 방식이며, 교차 검증은 ‘leave‑one‑speaker‑out’ 전략을 채택해 화자 간 일반화 성능을 평가한다. 실험 결과, 신경 특징 기반 회귀는 eGeMAPS 기반 회귀에 비해 MSE가 각각 0.259 vs 0.267(활력)와 0.020 vs 0.034(가치)로 개선되었으며, 표준편차 역시 낮아 안정적인 성능을 보였다. 이는 ASR가 음성‑텍스트 매핑 과정에서 감정적 정보를 내재적으로 학습한다는 가설을 뒷받침한다. 두 번째 실험에서는 층별 상관관계를 분석하였다. 각 화자별로 초기 층(음성에 가까운)과 최종 층(텍스트에 가까운)의 평균 활성화와 정서 차원 간 Pearson 상관계수를 계산한 결과, 초기 층은 활력과 높은 양의 상관관계를, 최종 층은 가치와 높은 양의 상관관계를 보였다. 이는 감정의 두 차원이 각각 음성 물리적 특성과 언어 의미에 더 민감하게 연결될 가능성을 시사한다. 다만 이러한 패턴은 모든 화자에게 일관되지 않았으며, 화자별 차이와 데이터 양의 제한이 원인일 수 있다. 결론에서는 ASR 기반 신경 특징이 기존 hand‑crafted 특징보다 감정 차원 예측에 효과적임을 확인하고, 층별 특성을 통해 감정의 멀티모달 본질을 탐구할 수 있음을 강조한다. 향후 연구 방향으로는 (1) 전체 파이프라인을 end‑to‑end 방식으로 미세조정하여 비선형 관계를 학습, (2) 평균 풀링 대신 max‑pooling을 적용해 감정적으로 salient한 프레임을 선택, (3) 프레임 단위 레이블이 없는 경우에도 시계열적 감정 변화를 추정할 수 있는 방법 모색, (4) 일부 화자에서만 나타나는 상관 패턴의 원인 분석 및 멀티모달(영상·얼굴 표정) 통합 모델 개발 등을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기