모음 수준 억양 증강으로 텍스트 기반 감정 인식
초록
VowelPrompt는 강제 정렬을 통해 얻은 모음 구간에서 피치·에너지·길이 등 저수준 음향 특징을 추출하고, 이를 자연어 형태의 프로소디 설명으로 변환한다. 변환된 설명을 텍스트 전사에 추가해 대형 언어 모델이 어휘 의미와 세밀한 억양 정보를 동시에 활용하도록 한다. 두 단계의 적응(지도 미세조정 → 검증 가능한 보상 강화학습)으로 성능과 해석성을 모두 향상시켰으며, 다중 데이터셋·다언어·도메인 전이 실험에서 기존 최첨단 방법들을 일관적으로 능가한다.
상세 분석
본 논문은 음성 감정 인식(SER)에서 텍스트 전사만을 이용하는 LLM 기반 접근법의 한계를 인식하고, 모음이 감정 억양을 전달하는 핵심 매개체라는 음성학적 근거를 활용한다. 먼저 강제 정렬(forced alignment) 파이프라인을 통해 각 모음 구간의 시작·종료 시점을 정확히 파악한다. 이후 4가지 저수준 기술적 특성(평균 피치·피치 경사·피치 변동·평균 에너지·에너지 변동·구간 길이)을 계산하고, 화자별 z‑정규화와 모음 종류별 정규화를 순차 적용한다. 정규화된 연속값은 분위수 기반 K‑구간(예: 매우 낮음·낮음·보통·높음·매우 높음)으로 이산화되어, “높은 피치·상승·큰 볼륨·길게”와 같은 자연어 텍스트로 변환된다. 이러한 프로소디 설명은 전사와 결합돼 LLM의 프롬프트에 삽입되며, LLM은 어휘 의미와 함께 세밀한 억양 변화를 동시에 고려해 감정 라벨을 예측한다.
학습 단계는 두 단계로 구성된다. 첫 번째 단계인 지도 미세조정(SFT)에서는 변환된 프롬프트와 정답 라벨을 사용해 LLM을 기본 감정 인식 능력에 맞춘다. 두 번째 단계인 검증 가능한 보상 강화학습(RLVR)에서는 Group Relative Policy Optimization(GRPO) 알고리즘을 적용해, (1) 출력 형식(예:
실험은 IEMOCAP, MELD, CaFE, EmoDB, ASVP‑ESD 등 5개 공개 데이터셋을 대상으로 제로샷, 소수샷, 완전 미세조정, 교차 도메인, 교차 언어 설정에서 수행되었다. VowelPrompt는 기존의 오디오‑LLM(예: AudioPaLM)이나 전통적인 저수준 특징 기반 모델(openSMILE, GeMAPS)보다 일관되게 높은 정확도와 F1 점수를 기록했으며, 특히 텍스트 전용 환경에서 음성 억양 정보를 효과적으로 활용한다는 점에서 차별성을 보였다. 또한, 모델이 제공하는 “생각 과정” 텍스트는 인간 평가자에게 높은 설득력과 일관성을 보여, 실용적인 해석 가능성을 입증했다.
핵심 기여는 다음과 같다. (1) 모음 중심의 억양 특징을 정량·정성적으로 변환해 텍스트 프롬프트에 삽입함으로써 LLM이 음성‑텍스트 복합 정보를 활용하도록 설계했다. (2) SFT와 RLVR을 결합한 두 단계 적응 프레임워크를 도입해, 성능 향상과 동시에 출력 형식·추론 근거의 검증 가능성을 확보했다. (3) 다양한 벤치마크와 설정에서 기존 최첨단 방법들을 능가함을 실증했으며, 특히 텍스트‑전용 배포 시나리오에서 높은 실용성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기