감정 음성 인식을 위한 합성 데이터 활용 전략

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 감정이 포함된 합성 음성을 이용해 자동음성인식(ASR) 시스템을 강화하는 방법을 제시한다. 세 가지 최신 감정 제어 TTS 모델로 만든 합성 데이터를 오류 유형별로 분석하고, 전사 정확도와 감정 강도를 기준으로 데이터를 선택하는 두 가지 생성 전략(TTS‑G, EMO‑G) 및 이를 결합한 전략(TTS‑EMO‑G)을 설계한다. 실험 결과, 선택된 합성 데이터로 미세조정한 모델은 실제 감정 음성 데이터셋에서 WER가 일관적으로 감소했으며, 중립 음성(LibriSpeech) 성능은 유지되었다.

상세 분석

본 연구는 감정이 포함된 합성 음성 데이터가 ASR 성능에 미치는 영향을 정량적으로 파악하고, 효율적인 데이터 선택 방식을 제안한다는 점에서 의미가 크다. 첫 번째 단계에서는 CosyVoice2, EmoVoice, MaskGCT라는 세 가지 최신 감정 제어 TTS 모델을 활용해 LibriSpeech 텍스트를 다섯 감정(Angry, Happy, Neutral, Sad, Surprise)으로 변환하였다. 각 모델별로 30 000개의 학습용, 13 470개의 개발용, 13 055개의 테스트용 샘플을 생성했으며, Qwen2‑audio ASR 엔진을 이용해 전사 오류를 측정하였다. 결과적으로 모든 합성 데이터가 원본 LibriSpeech 대비 WER가 상승했으며, 특히 substitution 오류가 가장 크게 증가했다. 이는 감정에 따른 음성학적 변동(예: 피치, 포먼트, 지속시간)이 음소 인식에 직접적인 영향을 미친다는 기존 연구와 일치한다.

두 번째 분석에서는 비음성 품질(NISQA)와 감정 강도(WavLM 기반 다중 과제 회귀 모델) 평가를 수행했다. MOS 점수는 3.7 이상으로 전반적인 음질은 양호했지만, 감정 강도 점수는 모델마다 차이를 보였다. CosyVoice2와 EmoVoice는 Arousal 점수가 4 이하에 머물러 감정 표현이 약했으며, MaskGCT는 보다 넓은 분포를 보여 감정 다양성이 높았다. 따라서 “감정이 충분히 전달되지 않은” 합성 음성은 ASR 학습에 큰 도움이 되지 않을 가능성이 있다.

이러한 두 가지 관찰(대체 오류 다수, 감정 강도 편차 부족)을 바탕으로 저자는 두 가지 데이터 선택 전략을 설계했다. 첫 번째 전략(TTS‑G)은 원본 텍스트 대비 합성 음성에서 substitution 오류가 증가하고 insertion·deletion 오류는 감소하거나 동일한 샘플만을 추출한다. 이는 모델이 감정에 의해 발생하는 음소 변형을 학습하도록 유도한다. 두 번째 전략(EMO‑G)은 감정 회귀 점수가 평균에서 1σ 이상 벗어난 샘플을 선택한다. 이는 감정 표현이 뚜렷한 데이터를 확보함으로써 감정 인식 능력을 강화한다. 마지막으로 두 기준을 동시에 만족하는 TTS‑EMO‑G를 제안했으며, 이는 전사 정확도와 감정 강도 모두를 만족하는 고품질 합성 데이터를 제공한다.

실험에서는 각 TTS 모델별로 위 세 가지 전략을 적용한 데이터 서브셋을 사용해 Qwen2‑audio‑7B 모델을 미세조정했다. 결과는 표 III에 요약되어 있는데, CosyVoice2의 경우 EMO‑G와 TTS‑G 모두 WER가 약 0.3%p 정도 감소했으며, TTS‑EMO‑G는 약 0.5%p 감소했다. EmoVoice와 MaskGCT에서도 비슷한 경향이 관찰되었지만, 특히 MaskGCT에서는 EMO‑G만 적용했을 때 개발·테스트 셋에서 WER가 크게 상승(특히 0.09%p)하는 현상이 있었으며, 이는 감정 강도가 과도하게 변동하면서 모델이 불안정해지는 현상을 시사한다.

전체적으로 본 논문은 (1) 감정 합성 음성이 ASR에 미치는 주요 오류 유형을 체계적으로 규명하고, (2) 전사 정확도와 감정 강도를 동시에 고려한 데이터 선택 기준을 제시함으로써, 감정 인식이 필요한 실제 서비스 환경에서 데이터 효율성을 크게 향상시킬 수 있음을 입증한다. 또한, 중립 음성(LibriSpeech) 성능이 손상되지 않는다는 점은 제안된 전략이 기존 모델의 일반화 능력을 유지하면서 감정 인식 능력만을 보강한다는 중요한 실용적 가치를 제공한다.

감정 음성 인식을 위한 합성 데이터 활용 전략

초록

상세 분석

댓글 및 학술 토론

의견 남기기