자발성 활용 감정 인식 향상
본 논문은 음성의 자발성(스폰테이니어스 vs. 스크립트) 정보를 보조 과제로 활용해 감정 인식 성능을 높이는 두 가지 SVM 기반 모델을 제안한다. 계층형 모델은 먼저 자발성을 판별하고, 그 결과에 따라 감정 분류기를 선택한다. 다중작업 모델은 자발성 및 감정 라벨을 동시에 예측한다. IEMOCAP 데이터셋 실험에서 계층형 모델이 4가지 감정(분노, 기쁨, 중립, 슬픔) 인식 정확도 69.1%를 달성하며 기존 베이스라인보다 3% 이상 향상된 것…
저자: Karttikeya Mangalam, Tanaya Guha
본 연구는 음성 감정 인식에서 발화의 자발성(스폰테이니어스 vs. 스크립트) 정보를 활용하는 두 가지 새로운 학습 프레임워크를 제안한다. 먼저, 저자들은 감정 내용이 자발성에 따라 달라진다는 가설을 세우고, 이를 보조 과제로 활용함으로써 감정 인식 성능을 향상시킬 수 있다고 주장한다.
**데이터 및 특징 추출**
실험에 사용된 IEMOCAP 데이터베이스는 12시간 분량의 대화 음성을 포함하며, 각 대화는 즉흥(자발성) 혹은 스크립트(비자발성) 라벨이 부여되어 있다. 감정 라벨은 6가지(중립, 기쁨, 슬픔, 분노, 좌절, 흥분) 중 가장 많이 선택된 4가지(분노, 기쁨, 중립, 슬픔)만을 사용한다. 특징 추출은 25 ms 윈도우와 10 ms 스트라이드로 진행되며, MFCC, ZCR, Voice Probability, 기본 주파수(F0) 등 네 가지 저수준 기술적 특성을 추출한다. 각 특성에 대해 1차 차분(delta)을 계산하고, 전체 2k 차원의 로컬 피처를 만든 뒤, 평균·범위·최대·왜도·첨도 등 12가지 통계량을 적용해 24k 차원의 전역 피처(차원 d=360)를 얻는다. 피처는 -1~1 범위로 정규화한다.
**계층형 모델**
첫 번째 제안 모델은 두 단계로 구성된다. (1) 전체 훈련 데이터를 이용해 SVM(RBF 커널)으로 자발성 검출기를 학습한다. 여기서는 연속 발화 ℓ=10을 사용해 문맥 정보를 포함시켜 93%의 높은 정확도를 달성한다. (2) 자발성 검출 결과에 따라 두 개의 감정 분류기(SVM)를 별도로 학습한다. 즉, 스크립트 발화 전용 감정 분류기와 자발성 발화 전용 감정 분류기를 각각 Ω₀와 Ω₁에 대해 학습한다. 테스트 시에는 먼저 자발성 검출을 수행하고, 해당 결과에 맞는 감정 분류기를 적용한다.
**다중작업 모델**
두 번째 모델은 자발성 라벨과 감정 라벨을 동시에 예측하도록 설계된 단일 SVM이다. 라벨 쌍(y_s, y_e)을 하나의 다중클래스 문제로 변환하고, 정규화 손실과 소프트 마진 손실을 결합한 공동 손실 함수 L(W,Y,F)를 최소화한다. 여기서 C는 정규화와 마진 손실 간의 균형을 조절한다. 전체 훈련 데이터를 사용해 하나의 가중치 행렬 W∈ℝ^{|Y|×d}를 학습한다. 이 모델은 ℓ=1(utterance 수준)으로 동작한다.
**실험 결과**
- **자발성 검출**: ℓ=1일 때 80% 정확도, ℓ=10일 때 93% 정확도. MFCC가 가장 중요한 특징이며, delta 피처가 원본 피처보다 자발성 판별에 더 큰 영향을 미친다.
- **감정 인식 베이스라인**: SVM 기반 베이스라인은 전체 정확도 65.4%, RF는 64.1%를 기록한다.
- **계층형 모델**: 전체 정확도 69.1% (SVM 베이스라인 대비 +3.7%p). 특히 ‘분노’ 클래스에서 11%p 향상, ‘중립’에서 3%p 향상. 스크립트와 자발성 각각에 대한 정확도는 64.2%와 74.0%로, 자발성 발화에서 더 높은 성능을 보인다.
- **다중작업 모델**: 전체 정확도 66.1%로 계층형보다 약간 낮지만, 여전히 베이스라인보다 개선된 결과다.
**비교 분석**
제안된 방법들은 기존 딥러닝 기반 모델(CNN
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기