Electrical Engineering and Systems Science / Audio and Speech Processing

'Electrical Engineering and Systems Science / Audio and Speech Processing' 카테고리의 모든 글

총 3개의 글
시간순 정렬
No Image

인디언 에모스피치 명령 데이터셋 환경에서의 감정 기반 음성 인식을 위한 데이터셋

말하기 감정 분석은 여러 응용 사례를 가능하게 하는 중요한 작업입니다. 말하는 발화 내의 비언어적 소리도 말하기 감정 분석에 핵심적인 역할을 합니다. 스마트폰의 광범위한 사용으로, 마이크로 녹음된 명령어를 이용하여 기기 자체에서 머신 러닝 모델을 활용해 감정 이해를 분석하는 것이 가능하게 되었습니다. 비언어적 정보는 주변 환경 소리, 현재 상황 및 수행 중인 활동 등을 설명합니다. 이 연구에서는 발화 내의 언어적(명령어)과 비언어적 소리(배경 잡음)를 모두 고려하여 실제 시나리오에서 감정 분석을 수행했습니다. 이를 위해 인도 EmoSpeech 명령어 데이터셋 이라는 원주민 데이터셋을 만들었습니다. 이 데이터셋은 다양한 감정과 배경 소리를 포함하며, 음성 분석의 새로운 도전 과제를 탐색하기 위한 것입니다. 우리는 여러 기준 모델들과 성능 지표에 따라 광범위하게 비교했습니다. 그리고 명령어 데이터셋의 하위 집합에서 키워드 감지의 최상위 점수에서 3.3%의 상당한 평균 증가를 달성했다는 것을 보여주었습니다.

paper AI 요약
MORE  음성 인식의 다목적 적대적 공격

MORE 음성 인식의 다목적 적대적 공격

오토메이티드 스피치 인식(ASR) 모델은 가상 어시스턴트, 실시간 자막 생성, 임상 기록 작성 등 다양한 분야에서 중요한 역할을 하고 있습니다. 그러나 이러한 시스템들은 적대적 공격에 취약하며, 이로 인해 인식 정확도나 추론 효율성이 크게 저하될 수 있습니다. 본 논문에서는 대표적인 ASR 모델인 Whisper 가족의 안정성을 평가하기 위해 새로운 공격 방법 **MORE**를 제안합니다. **MORE**는 정확성과 효율성을 동시에 해치는 다목적 공격 방법으로, 이전 연구들이 주로 정확도에만 초점을 맞춘 것과 달리, 더 종합적인 모델 취약점 평가를 가능하게 합니다.

paper AI 요약
코드스위칭 음성인식을 위한 TTS 데이터 증강 개선

코드스위칭 음성인식을 위한 TTS 데이터 증강 개선

코드 스위칭은 다언어 화자들이 두 가지 이상의 언어를 혼합하여 대화하는 일상적인 관행입니다. 이는 자동 음성 인식(ASR)에서 특히 어려운 문제로, 화자가 언어 간 전환 시intonation, 리듬, 발음 등을 조정하므로 ASR 시스템은 이러한 변화를 실시간으로 추적해야 합니다. 그러나 실제 코드 스위칭 데이터셋의 부재가 모델 성능을 크게 제한합니다. 이 논문에서는 TTS(TTS Text-to-Speech) 합성 음성을 이용하여 이러한 문제를 해결하는 방법을 제시하고, 이를 통해 ASR 시스템의 성능을 개선할 수 있음을 보여줍니다.

paper AI 요약

< 분야별 논문 현황 (Total: 566) >

Quantum Physics
5

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키