감성 뉘앙스를 통합한 RE LLM으로 공감 대화 강화
초록
RE-LLM은 음성 기반 대형 언어 모델에 차원형 감정 임베딩과 보조 학습을 결합해 감정 탐색 능력을 크게 향상시킨다. IEMOCAP, ESD, MSP‑PODCAST 세 데이터셋에서 감정 반응 점수와 탐색 점수가 각각 14.79 %·6.76 %·35.42 %·3.91 % 등 현저히 상승했으며, 감정 인식 정확도도 평균 5 % 이상 개선되었다.
상세 분석
본 논문은 기존 텍스트‑기반 LLM이 감정 표현을 ‘반영’하는 수준에 머무는 한계를 지적하고, 인간 상담에서 중요한 ‘감정 탐색(Exploration)’을 구현하기 위해 음성 신호에 내재된 미세 감정 정보를 활용한다는 점에서 혁신적이다. 핵심 아이디어는 두 가지다. 첫째, 사전 학습된 wav2vec 2.0 기반 감정 인코더를 통해 연속적인 차원형 감정 임베딩(Valence, Arousal, Dominance)을 추출하고, 이를 Whisper‑large‑v2가 만든 음성 특성 임베딩과 시점별로 concatenate한다. 이렇게 풍부해진 감정‑음성 복합 표현을 모달리티 어댑터(1D Conv + bottleneck)로 압축해 LLM에 전달함으로써, LLM이 텍스트와 음성 양쪽의 정서 신호를 동시에 인식하도록 설계했다.
둘째, 학습 단계에서 감정 분류(4‑class categorical)와 차원형 감정 회귀(3‑dimensional) 두 개의 보조 과제를 병행한다. 평균 풀링 후 각각 Cross‑Entropy와 MSE 손실을 적용해 전체 손실 = KL + CE + MSE 로 최적화한다. 이중 목표는 (1) 감정 레이블에 대한 전통적 정확도 향상, (2) 연속적인 감정 스펙트럼을 통한 미묘한 정서 차이 감지 능력 강화이다.
실험 설계는 세 가지 공감 평가 지표—Emotional Reaction(ER), Exploration(Ex), Unweighted Accuracy(UA)—를 사용해 텍스트‑전용, Whisper‑텍스트, 기존 BLSP‑Emo(미세조정 유무)와 비교한다. 통계적 유의성 검증으로 Wilcoxon signed‑rank 테스트(p < 0.05)를 적용, 모든 개선이 의미 있는 차이임을 입증했다. 특히 ESD 데이터셋에서 Exploration 점수가 139 % 상승한 것은 음성 기반 감정 뉘앙스가 ‘질문형 탐색’ 능력을 크게 촉진함을 보여준다.
또한, Ablation 실험을 통해 (a) 차원형 감정 보조 과제 제거 시 탐색 점수와 UA가 현저히 감소하고, (b) 감정 인코더 자체를 제외하면 전체 성능이 급락함을 확인했다. 이는 두 구성 요소가 상호 보완적으로 작용한다는 증거다.
한계점으로는 (1) 감정 라벨이 없는 데이터에 대해 pseudo‑label을 생성해 사용했는데, 라벨 품질에 따라 성능 변동 가능성이 있다. (2) 현재는 정적인 프롬프트 기반 기대 응답을 생성해 정렬하지만, 실제 대화 흐름에서 동적 컨텍스트를 반영하는 메커니즘은 부족하다. 향후 연구에서는 강화학습 기반 대화 정책이나 멀티턴 감정 추적을 도입해 실시간 상호작용성을 높일 여지가 있다.
전반적으로 RE‑LLM은 음성 신호의 정서적 풍부함을 LLM에 효과적으로 전달함으로써, 단순 감정 매칭을 넘어 ‘감정 탐색’이라는 고차원 공감 능력을 구현한다는 점에서 인간‑AI 상호작용 연구에 중요한 전진을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기