다수결을 넘어선 추론: 설명 가능한 SpeechLM 기반 감정 인식
초록
본 논문은 다수결 라벨에만 의존하던 기존 음성 감정 인식(SER) 방식을 탈피하여, 교사 LLM이 생성한 자연어 근거를 활용한 이유 기반 학습(Rationale Supervision)을 제안한다. SpeechLM 백본에 LoRA를 적용해 음성 → 텍스트 → 감정 라벨 + 근거를 동시에 출력하도록 fine‑tuning하고, 다수표 라벨과 함께 annotator‑aware Macro‑F1을 평가 지표로 도입한다. MSP‑Podcast v1.12 실험에서 기존 zero‑shot 및 전통 SFT 모델을 능가하면서, 인간 평가에서도 설득력 있는 근거를 제공함을 확인하였다.
상세 분석
본 연구는 SER 분야에서 라벨의 주관성을 간과하고 다수결 라벨만을 학습·평가에 활용하는 한계를 명확히 지적한다. 감정 인식은 화자·문화·맥락에 따라 다양하게 해석될 수 있기에, 다수표 라벨만을 골라내면 중요한 소수 의견이 사라지고 모델의 해석 가능성도 저하된다. 이를 해결하기 위해 저자는 두 단계의 프레임워크를 설계한다. 첫 번째 단계는 멀티모달 교사 LLM(Qwen2.5‑Omni)을 이용해, 각 훈련 샘플의 전사와 정답 라벨을 입력으로 “내용·음성 특성(톤, 피치, 억양 등)을 근거로 감정을 설명하라”는 프롬프트를 제공한다. 교사는 라벨을 직접 언급하지 않으면서도, 텍스트와 음향 정보를 융합한 자연어 근거를 생성한다. 두 번째 단계에서는 이러한 (음성, 라벨, 근거) 삼중항을 LoRA‑adapted SpeechLM(Qwen2‑Audio‑7B‑Instruct)에 SFT 방식으로 학습시킨다. 모델은 입력 음성을 받아 자동 전사(
댓글 및 학술 토론
Loading comments...
의견 남기기