플러그인 감정 그래프 기반 제로샷 음성 감정 인식
초록
본 논문은 대규모 오디오‑언어 모델(LALM)의 제로샷 성능을 향상시키기 위해 구조화된 감정 그래프(EG)를 도입한 CCoT‑Emo 프레임워크를 제안한다. EG는 7가지 음향 특성, 텍스트 감성, 키워드 및 교차‑모달 관계를 JSON 형태로 정리하여 프롬프트에 삽입함으로써 모델이 단계적이고 해석 가능한 추론을 수행하도록 돕는다. IEMOCAP, MELD, ESD, MERBench 등 5개 벤치마크에서 기존 제로샷 및 CoT 기반 방법을 크게 능가하는 정확도 향상을 입증한다.
상세 분석
CCoT‑Emo는 기존 LALM이 언어 의미에 치우쳐 파라링구스틱 정보를 충분히 활용하지 못한다는 문제점을 정확히 짚어낸다. 이를 해결하기 위해 저자들은 ‘Emotion Graph’라는 중간 표현을 설계했으며, 이는 음성 신호에서 추출한 7가지 기본 음향 특성(피치, 음성 속도, 볼륨, 지터, 쉼머, 강도, 조음 속도)을 디지털 신호 처리(DSP) 기반 openSMILE 툴킷으로 정량화하고, 텍스트 전사에서 추출한 감성(긍정·중립·부정)과 핵심 키워드를 결합한다. 특히 교차‑모달 관계는 GPT‑4를 활용해 “음향 특성이 텍스트 감성을 지지·반대·중립 중 어느 쪽에 해당하는가”를 판단하도록 프롬프트를 구성함으로써, 인간이 직관적으로 이해하는 ‘음향‑감성 일치도’를 모델에게 명시적으로 제공한다. 이러한 구조화된 정보를 JSON 형식으로 직렬화해 LALM 프롬프트에 삽입함으로써, 모델은 비정형 CoT 단계에서 발생할 수 있는 환각이나 오류 전파를 최소화하고, 각 특성의 기여도를 투명하게 추적할 수 있다.
실험 설계는 세 가지 최신 LALM(Qwen2‑Audio, Qwen2.5‑Omni, Kimi‑Audio)을 대상으로, 제로샷 직접 프롬프트, 제로샷 CoT, 그리고 제안된 CCoT‑Emo를 비교한다. 결과는 모든 모델·데이터셋에서 CCoT‑Emo가 평균 6~9%p의 절대 정확도 향상을 보이며, 특히 ESD와 MERBench에서 14%p에 달하는 큰 폭의 개선을 기록한다. 이는 구조화된 중간 표현이 장시간 맥락이나 도메인 이동이 큰 데이터에서도 강인함을 제공함을 의미한다.
추가적인 Ablation Study에서는 (1) JSON 포맷을 비구조화된 텍스트로 교체했을 때 1.4%p 감소, (2) 교차‑모달 관계를 제거했을 때 1.7%p 감소, (3) 음향 특성을 LALM 자체 추론으로 대체했을 때 2.2%p 감소 등을 확인함으로써 각 구성 요소의 기여도를 정량화한다. 특히 텍스트 속성(감성·키워드)의 제거가 3.9%p 감소를 초래해, 언어적 단서가 음향 정보와 동등하게 중요함을 강조한다. 모델 규모와 토큰 길이 실험에서도 7B 파라미터 모델이 3B 모델보다 더 큰 이득을 보이며, 256‑token 길이의 EG가 최적 성능을 달성한다는 점을 밝혀, 구조화된 중간 표현이 충분히 압축되면서도 정보 손실을 최소화해야 함을 시사한다.
전반적으로 CCoT‑Emo는 “플러그‑앤‑플레이” 방식으로, 별도의 파인튜닝 없이 다양한 LALM에 적용 가능하며, 해석 가능성과 성능을 동시에 개선한다는 점에서 제로샷 멀티모달 감정 인식 분야에 중요한 전진을 이룬다.
댓글 및 학술 토론
Loading comments...
의견 남기기