📝 원문 정보
- Title: Indian EmoSpeech Command Dataset A dataset for emotion based speech recognition in the wild
- ArXiv ID: 1910.13801
- 발행일: 2019-10-31
- 저자: Subham Banga, Ujjwal Upadhyay, Piyush Agarwal, Aniket Sharma and Prerana Mukherjee
📝 초록
발화 감정 분석은 여러 응용 사례를 가능하게 하는 중요한 작업이다. 발화 내의 비언어적 소리도 발화에서의 감정 분석에 핵심적인 역할을 한다. 스마트폰의 광범위한 사용으로 인해 마이크로 녹음된 음성 명령을 이용하여 장치 내 머신 러닝 모델을 활용한 감정 이해가 가능하게 되었다. 비언어적 정보는 주변 환경 소리, 현재 상황 및 수행 중인 활동을 설명하는 배경 소리를 포함한다. 본 연구에서는 실제 시나리오에서 발화 내의 언어적(음성 명령)과 비언어적(배경 잡음) 소리를 모두 고려하여 감정 분석을 실시하였다. 이를 위해 "인디언 에모스피치 커맨드 데이터셋"이라는 원천적인 데이터셋을 작성하였으며, 이는 다양한 감정과 배경 소리를 포함한 단어들을 통해 음성 분석의 새로운 과제를 탐색한다. 여러 성능 지표에 걸쳐 다양한 기저 모델들과 감정 분석에서의 비교를 철저히 수행하였다. 우리는 특정 음성 명령 데이터셋의 일부에 대한 키워드 인식에서 상위 한 개 점수로 3.3%의 유의미한 평균 성능 향상을 달성함을 보여준다.
💡 논문 해설
...
📄 논문 발췌 (ArXiv Source)
[^1]: 방가 S와 아그라왈 P는 인도 뉴델리 파시미 비하르의 Bharati Vidyapeeth’s Engineering College 정보기술 학과에 소속되어 있습니다. (이메일: subhambanga26@gmail.com 및 me@ipiyush.com)
업아디야 U와 샤르마 A는 인도 뉴델리 파시미 비하르의 Bharati Vidyapeeth’s Engineering College 컴퓨터 과학 학과에 소속되어 있습니다. (이메일: ujjwalupadhyay8@gmail.com 및 aniket965.as@gmail.com)
무케르지 P는 인도 안드라프라데시 Sri City의 Indian Institute of Information Technology 컴퓨터 과학 학과에 소속되어 있습니다. (이메일: prerana.m@iiits.in)
방가 S, 아그라왈 P, 업아디야 U 그리고 샤르마 A는 동등하게 기여하였으며 그들의 이름 순서는 무작위입니다.
감사의 말씀
이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.