음성·텍스트 이중 모호성 감정 인식
초록
본 논문은 감정 인식에서 발생하는 두 종류의 모호성, 즉 평가자 간 라벨 분포로 나타나는 ‘평가자 모호성’과 음성·텍스트 등 서로 다른 모달리티가 제시하는 감정 단서가 상충할 때 발생하는 ‘모달리티 모호성’ 을 동시에 모델링하는 프레임워크 AmbER²를 제안한다. 교사‑학생 구조와 Jensen‑Shannon 기반 손실을 이용해 라벨 분포와 모달리티 간 일치도를 모두 고려하며, IEMOCAP와 MSP‑Podcast 데이터셋에서 기존 교차 엔트로피 기반 모델 대비 분포 적합도와 분류 성능을 모두 향상시킨다. 특히 높은 모호성을 가진 샘플에서 큰 이득을 보이며, 두 종류의 모호성을 함께 다루는 것이 감정 인식 시스템의 견고성을 크게 높임을 실증한다.
상세 분석
AmbER²는 감정 라벨이 다수 평가자의 주관적 판단에 의해 형성된다는 점에 착안해, 라벨을 단일 클래스가 아닌 확률 분포 형태로 활용한다. 기존 연구들은 주로 ‘평가자 모호성’만을 다루어 왔으며, 모달리티 간 갈등을 단순히 특징을 결합하거나 후처리 단계에서 평균을 취하는 방식으로 해결하려 했다. 그러나 음성의 억양·프로소디와 텍스트의 어휘·문맥은 감정 신호를 서로 다르게 전달할 수 있어, 두 모달리티가 서로 다른 감정 방향을 제시할 경우 모델이 혼란스러워지는 ‘모달리티 모호성’이 존재한다.
AmbER²는 교사‑학생(teacher‑student) 구조를 채택한다. 각각의 모달리티 전용 헤드(Audio, Text)는 전문가(teacher) 역할을 하며, 이들의 예측을 학생(Student) 헤드인 Fusion 헤드가 통합한다. 손실 함수는 두 부분으로 구성된다. 첫 번째는 Rater Ambiguity Integrated (RAI) 손실로, 학생의 출력 s와 인간 평가자들이 만든 라벨 분포 y 사이의 Jensen‑Shannon(JS) 발산을 최소화한다. 이는 평가자 간 의견 차이를 그대로 보존하면서 모델이 그 분포를 학습하도록 강제한다.
두 번째는 Modality Ambiguity Integrated (MAI) 손실이다. 여기서는 각 전문가 헤드의 예측 pₘ와 학생 출력 s 사이의 JS 발산을 계산하고, 각 전문가의 가중치 uₘ을 전문가가 라벨 분포 y와 얼마나 일치하는가에 따라 동적으로 조정한다. 구체적으로 uₘ = exp(−κ·Dₘ) / Σₖ exp(−κ·Dₖ) 형태이며, Dₘ = JS(pₘ‖y)이다. κ는 가중치의 날카로움을 조절하는 하이퍼파라미터다. 이 메커니즘은 라벨 분포와 잘 맞는 모달리티에게 더 큰 영향력을 부여하고, 불일치가 큰 모달리티는 억제한다. 따라서 학생은 ‘신뢰할 수 있는’ 모달리티 신호를 중심으로 학습하면서도, 전체 모달리티 간의 다양성을 유지한다.
실험 설정에서는 wav2vec2와 BERT를 각각 음성·텍스트 인코더로 사용하고, 두 임베딩을 게이트형 융합(gated fusion)으로 결합한다. 기본 베이스라인은 동일한 아키텍처에 Class‑Balanced Cross‑Entropy(CB‑CE) 손실만 적용한 모델이다. IEMOCAP(4클래스)와 MSP‑Podcast(8클래스) 두 데이터셋에 5‑fold 교차 검증을 수행했으며, JS, Bhattacharyya coefficient(BC), R² 같은 분포 기반 지표와 정확도·F1·Weighted‑F1 같은 전통적인 분류 지표를 모두 보고한다.
결과는 두 가지 측면에서 의미 있다. 첫째, AmbER²는 JS를 10% 이상 감소시켜 라벨 분포와의 적합도를 크게 높였으며, BC와 R²도 각각 26%와 512% 상승했다. 이는 모델이 평가자들의 의견 다양성을 보다 정확히 포착한다는 증거다. 둘째, 분류 성능에서도 IEMOCAP에서는 정확도가 3.8%, F1이 4.5% 상승했으며, MSP‑Podcast에서는 정확도가 9.9% 상승했다. 특히 높은 모호성을 가진 샘플(예: 라벨 분포가 고르게 퍼진 경우)에서 성능 격차가 두드러졌다. 이는 ‘모달리티 모호성’까지 고려한 것이 실제 감정 인식의 불확실성을 감소시키는 데 기여했음을 의미한다.
또한, 최신 SOTA 모델(AER‑LLM, EmoEnt, EMO‑Super)과 비교했을 때 AmbER²는 동일한 wav2vec2‑BERT 기반에서도 분포 기반 지표에서 경쟁력 있거나 우수한 결과를 보였다. 특히 라벨 분포를 직접 예측하도록 설계된 AER‑LLM의 few‑shot 설정보다도 JS와 BC에서 더 나은 성능을 기록했다.
전체적으로 AmbER²는 (1) 라벨 분포를 통한 평가자 모호성 보존, (2) 전문가 헤드 간 동적 가중치를 통한 모달리티 모호성 완화, (3) 교사‑학생 구조를 활용한 효율적 지식 전이라는 세 축을 결합함으로써, 멀티모달 감정 인식에서 기존 방법이 놓치기 쉬운 불확실성 요소들을 체계적으로 다루었다. 향후 연구에서는 더 많은 모달리티(예: 영상, 생체 신호)와의 확장, 그리고 실시간 대화 시스템에의 적용 가능성을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기