Audio and Speech Processing

'Audio and Speech Processing' 카테고리의 모든 글

총 2개의 글
시간순 정렬
MORE  음성 인식의 다목적 적대적 공격

MORE 음성 인식의 다목적 적대적 공격

오토메이티드 스피치 인식(ASR) 모델은 가상 어시스턴트, 실시간 자막 생성, 임상 기록 작성 등 다양한 분야에서 중요한 역할을 하고 있습니다. 그러나 이러한 시스템들은 적대적 공격에 취약하며, 이로 인해 인식 정확도나 추론 효율성이 크게 저하될 수 있습니다. 본 논문에서는 대표적인 ASR 모델인 Whisper 가족의 안정성을 평가하기 위해 새로운 공격 방법 **MORE**를 제안합니다. **MORE**는 정확성과 효율성을 동시에 해치는 다목적 공격 방법으로, 이전 연구들이 주로 정확도에만 초점을 맞춘 것과 달리, 더 종합적인 모델 취약점 평가를 가능하게 합니다.

paper AI 요약
코드스위칭 음성인식을 위한 TTS 데이터 증강 개선

코드스위칭 음성인식을 위한 TTS 데이터 증강 개선

코드 스위칭은 다언어 화자들이 두 가지 이상의 언어를 혼합하여 대화하는 일상적인 관행입니다. 이는 자동 음성 인식(ASR)에서 특히 어려운 문제로, 화자가 언어 간 전환 시intonation, 리듬, 발음 등을 조정하므로 ASR 시스템은 이러한 변화를 실시간으로 추적해야 합니다. 그러나 실제 코드 스위칭 데이터셋의 부재가 모델 성능을 크게 제한합니다. 이 논문에서는 TTS(TTS Text-to-Speech) 합성 음성을 이용하여 이러한 문제를 해결하는 방법을 제시하고, 이를 통해 ASR 시스템의 성능을 개선할 수 있음을 보여줍니다.

paper AI 요약

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키