인디언 에모스피치 명령 데이터셋 환경에서의 감정 기반 음성 인식을 위한 데이터셋
말하기 감정 분석은 여러 응용 사례를 가능하게 하는 중요한 작업입니다. 말하는 발화 내의 비언어적 소리도 말하기 감정 분석에 핵심적인 역할을 합니다. 스마트폰의 광범위한 사용으로, 마이크로 녹음된 명령어를 이용하여 기기 자체에서 머신 러닝 모델을 활용해 감정 이해를 분석하는 것이 가능하게 되었습니다. 비언어적 정보는 주변 환경 소리, 현재 상황 및 수행 중인 활동 등을 설명합니다. 이 연구에서는 발화 내의 언어적(명령어)과 비언어적 소리(배경 잡음)를 모두 고려하여 실제 시나리오에서 감정 분석을 수행했습니다. 이를 위해 인도 EmoSpeech 명령어 데이터셋 이라는 원주민 데이터셋을 만들었습니다. 이 데이터셋은 다양한 감정과 배경 소리를 포함하며, 음성 분석의 새로운 도전 과제를 탐색하기 위한 것입니다. 우리는 여러 기준 모델들과 성능 지표에 따라 광범위하게 비교했습니다. 그리고 명령어 데이터셋의 하위 집합에서 키워드 감지의 최상위 점수에서 3.3%의 상당한 평균 증가를 달성했다는 것을 보여주었습니다.


