TTS 합성 데이터로 비용 효율적인 키워드 스팟팅 모델 개발
초록
본 논문은 텍스트‑투‑스피치(TTS) 합성 음성을 활용해 키워드 스팟팅(KWS) 모델을 저비용·고효율로 학습하는 방법을 제안한다. 제한된 실제 음성 데이터(스피커 100명, 2 k 발화)와 대규모 TTS 합성 데이터를 혼합해 학습한 결과, 3.8 M 실음성만 사용한 베이스라인 대비 약 3배 정도 높은 오류율(프라스 리젝션 비율)만을 보이며 실용성을 입증한다.
상세 분석
이 연구는 현재 상용화된 TTS 기술이 제공하는 고품질·다양한 화자 특성을 KWS 학습에 적용함으로써 데이터 수집 비용을 크게 절감할 수 있음을 실증한다. 주요 기여는 세 가지로 요약된다. 첫째, 키워드와 부정 예시를 자동으로 생성하는 텍스트 생성기를 설계하였다. 여기서는 키워드 프리픽스와 키워드명, 그리고 무작위 사용자 질의 문장을 조합하고, V irtuoso TTS가 지원하는 프로소디 제어 기호(‘( )’, ‘?’, ‘!’ 등)를 삽입해 음성 합성 시 억양·속도·음량 변화를 유도한다. 이러한 텍스트 변형은 합성 음성의 다양성을 인위적으로 확대해 실제 음성 데이터와의 분포 차이를 완화한다.
둘째, 두 종류의 최신 TTS 모델을 활용하였다. V irtuoso는 726개의 사전 학습 화자와 139개 언어를 지원하며, 텍스트 입력에 따라 무작위 프로소디를 적용한다. AudioLM 기반 TTS는 입력 음성의 화자 특성을 보존하면서 텍스트를 음성으로 변환할 수 있어, 실제 화자와 유사한 개인화 음성을 대량 생성한다. 두 모델을 병합함으로써 화자 수, 언어·악센트, 프로소디 측면에서 폭넓은 변이성을 확보한다.
셋째, 합성 데이터와 실제 데이터를 혼합하는 여러 학습 레시피를 체계적으로 탐색했다. 기본 실음성 부정 데이터(≈11 M)만을 베이스라인으로 사용하고, 여기서 TTS 합성 데이터(긍정·부정 각각 7.5 M·5.1 M)를 추가한다. 이후 실제 긍정 데이터의 양을 단계적으로 늘리면서(0 → 100 k) 모델 성능 변화를 측정하였다. 특히 화자 수와 화자당 발화 수를 독립적으로 조절한 실험을 통해, 화자 다양성이 모델 일반화에 미치는 영향을 정량화했다. 결과는 다음과 같다.
- 순수 TTS 학습 모델은 FRR이 46 % 수준으로 실음성만 사용한 베이스라인(3.17 %)에 비해 크게 떨어졌다.
- 실음성 부정 데이터를 추가하면 TTS 기반 모델의 FRR이 17 %대로 급격히 개선되었다.
- 실음성 긍정 데이터를 100 k(스피커 100명, 각 10발화)만 추가해도 FRR이 9.94 %로, 베이스라인 대비 약 3배 수준으로 유지되었다. 이는 3.8 M 실음성 전체를 사용한 경우와 비교해 데이터 양을 99.97 % 절감한 결과이다.
- 화자 수가 100명 이상이면 FRR이 크게 감소하고, 화자당 발화 수를 늘려도 추가적인 개선 효과는 미미했다. 이는 화자 다양성이 음성 변이성을 대체한다는 점을 시사한다.
이러한 실험 결과는 “소량의 고다양성 실음성 + 대량의 고품질 TTS 합성” 조합이 KWS 모델의 비용 효율적인 학습에 충분함을 보여준다. 다만, TTS 합성 음성은 여전히 미세한 아티팩트와 실제 발화 환경(배경 잡음, 마이크 특성 등)을 완벽히 재현하지 못한다는 한계가 남아 있다. 향후 연구에서는 도메인 적응 기법이나 신경망 기반 데이터 정제 방법을 도입해 합성‑실음성 간 분포 차이를 더욱 줄이는 방안을 모색할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기