다수결을 넘어선 추론: 설명 가능한 SpeechLM 기반 감정 인식

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다수결 라벨에만 의존하던 기존 음성 감정 인식(SER) 방식을 탈피하여, 교사 LLM이 생성한 자연어 근거를 활용한 이유 기반 학습(Rationale Supervision)을 제안한다. SpeechLM 백본에 LoRA를 적용해 음성 → 텍스트 → 감정 라벨 + 근거를 동시에 출력하도록 fine‑tuning하고, 다수표 라벨과 함께 annotator‑aware Macro‑F1을 평가 지표로 도입한다. MSP‑Podcast v1.12 실험에서 기존 zero‑shot 및 전통 SFT 모델을 능가하면서, 인간 평가에서도 설득력 있는 근거를 제공함을 확인하였다.

상세 분석

본 연구는 SER 분야에서 라벨의 주관성을 간과하고 다수결 라벨만을 학습·평가에 활용하는 한계를 명확히 지적한다. 감정 인식은 화자·문화·맥락에 따라 다양하게 해석될 수 있기에, 다수표 라벨만을 골라내면 중요한 소수 의견이 사라지고 모델의 해석 가능성도 저하된다. 이를 해결하기 위해 저자는 두 단계의 프레임워크를 설계한다. 첫 번째 단계는 멀티모달 교사 LLM(Qwen2.5‑Omni)을 이용해, 각 훈련 샘플의 전사와 정답 라벨을 입력으로 “내용·음성 특성(톤, 피치, 억양 등)을 근거로 감정을 설명하라”는 프롬프트를 제공한다. 교사는 라벨을 직접 언급하지 않으면서도, 텍스트와 음향 정보를 융합한 자연어 근거를 생성한다. 두 번째 단계에서는 이러한 (음성, 라벨, 근거) 삼중항을 LoRA‑adapted SpeechLM(Qwen2‑Audio‑7B‑Instruct)에 SFT 방식으로 학습시킨다. 모델은 입력 음성을 받아 자동 전사(), 감정 예측(), 그리고 근거()를 하나의 시퀀스로 출력한다. 여기서 LoRA는 self‑attention의 Q/K/V/O와 LM 헤드만을 미세조정함으로써 파라미터 효율성을 유지한다. 학습 목표는 전체 토큰 시퀀스에 대한 cross‑entropy 손실이며, 라벨과 근거 모두가 손실에 기여한다. 평가에서는 기존의 majority‑vote Macro‑F1에 더해, annotator‑aware Macro‑F1을 도입해 예측이 어느 annotator의 라벨이라도 일치하면 정답으로 인정한다. 실험 결과, 제안 모델은 zero‑shot 기반인 Q2A‑CoT, Q2.5O‑CoT 등을 크게 앞서며, 특히 open‑form(자유 텍스트) 평가에서 36.14% → 66.78% (MV‑labels / All‑labels)의 큰 폭의 향상을 보였다. Ablation 실험에서 근거 supervision을 제외한 모델(Model 10)은 성능이 현저히 떨어져, 근거가 단순한 정답 신호를 넘어 보조 학습 신호로 작용함을 입증한다. 인간 평가와 LLM‑as‑judge 실험에서도 제안 모델의 근거가 더 설득력 있고, 내용·음향 정보를 균형 있게 언급한다는 점이 확인되었다. 전체적으로, 라벨 불확실성을 보존하면서도 설명 가능성을 강화한 접근법이 SER 성능과 신뢰성을 동시에 끌어올릴 수 있음을 보여준다. 다만, 근거 생성에 교사 LLM 의존도가 높아 비용이 발생하고, 근거 품질이 교사 모델에 크게 좌우된다는 한계가 남는다.

다수결을 넘어선 추론: 설명 가능한 SpeechLM 기반 감정 인식

초록

상세 분석

댓글 및 학술 토론

의견 남기기