부부 치료 대화에서 감정 인식을 위한 머신러닝

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 자연스러운 부부 치료 대화에서 화자별 감정을 자동으로 분류하기 위해 세 커플(총 6명)의 18시간 음성 데이터를 활용하였다. 감정 라벨은 Anger, Sadness, Joy, Tension, Neutral 다섯 클래스로 코딩했으며, 불균형 샘플을 오버샘플링·가중치 조정으로 보정하였다. 필터뱅크, 주파수, 음성 품질 3종 특징을 추출하고, 랜덤 포레스트 분류기로 학습하였다. 화자‑종속 모델에서 필터뱅크 특징만 사용할 때 가장 높은 정확도를 보였으며, 여성 화자는 84∼90%, 남성 화자는 78∼95%의 인식률을 달성했다. 쌍별 감정 구분에서도 76∼99%의 높은 성능을 기록하였다. 연구는 부부 치료가 자연스러운 감정 발화 연구에 풍부한 자료임을 시사한다.

상세 분석

본 논문은 실험실에서 인위적으로 설계된 스크립트 음성 데이터와는 달리, 실제 부부 치료 세션에서 수집된 비구조화된 음성 데이터를 대상으로 감정 인식 모델을 구축한 점에서 의미가 크다. 데이터는 세 커플(A, B, C)의 18시간 분량을 비디오·오디오로 녹음했으며, 각 발화마다 인간 코더가 Anger, Sadness, Joy, Tension, Neutral 다섯 가지 감정 라벨을 부여하였다. 자연스러운 대화에서는 특정 감정(예: Joy)이 거의 나타나지 않아 클래스 불균형이 심각했으며, 이를 해결하기 위해 SMOTE 기반 오버샘플링과 클래스 가중치 조정을 병행하였다.

특징 추출은 세 가지 그룹으로 나뉜다. 첫 번째는 40개의 멜 필터뱅크 에너지( MFCC와 유사)로 구성된 filter‑bank 특징이며, 이는 음성의 스펙트럼 구조를 포괄적으로 포착한다. 두 번째는 기본 주파수(F0), 포먼트(F1‑F4) 등 전통적인 주파수 기반 특징이며, 감정에 따른 피치 변화를 반영한다. 세 번째는 jitter, shimmer, HNR 등 음성 품질(voice‑quality) 지표로, 긴장도와 같은 감정 상태와 연관된 미세한 진동 변화를 측정한다.

분류 모델로는 앙상블 학습 특성상 과적합에 강하고 변수 중요도 해석이 용이한 Random Forest를 선택하였다. 화자‑종속(speaker‑dependent) 설정으로 각 개인별 모델을 학습했으며, 5‑fold 교차 검증을 통해 일반화 성능을 평가했다. 결과적으로 filter‑bank 특징만을 사용했을 때 가장 높은 정확도를 기록했으며, 이는 스펙트럼 전반에 걸친 정보가 감정 구분에 가장 효과적임을 의미한다. 구체적인 성능은 다음과 같다.

커플 A: 여성 90%, 남성 87% (3감정+Neutral)
커플 B: 여성 84%, 남성 78% (4감정+Neutral)
커플 C: 여성 88% (4감정+Neutral), 남성 95% (3감정+Neutral)

쌍별 감정 구분(pairwise classification)에서도 76%에서 99%까지 다양한 정확도를 보였으며, 특히 Anger‑Neutral, Joy‑Neutral 조합에서 높은 구분력을 나타냈다.

한계점으로는 데이터 양이 제한적이며, 화자‑종속 모델이므로 새로운 화자에 대한 일반화가 어려운 점을 들 수 있다. 또한 감정 라벨링이 주관적일 수 있어 라벨 간 일관성 검증이 필요하다. 향후 연구에서는 다중 화자 다중 라벨(Multi‑speaker, Multi‑label) 학습, 딥러닝 기반 스펙트로그램 모델, 그리고 비언어적 단서(표정, 제스처)와의 멀티모달 통합을 탐색할 여지가 있다.

부부 치료 대화에서 감정 인식을 위한 머신러닝

초록

상세 분석

댓글 및 학술 토론

의견 남기기