LLM‑Synth4KWS: 대규모 언어모델·TTS 기반 혼동 키워드 자동 생성 및 합성 기법
초록
본 논문은 대형 언어모델(LLM)로 혼동될 가능성이 높은 키워드 그룹을 자동 생성하고, 텍스트‑투‑스피치(TTS) 엔진으로 다양한 화자·억양을 합성해 맞춤형 키워드 스팟팅(KWS) 모델을 강화한다. 새롭게 제안한 vowel‑group 기반 c‑AUC 지표로 평가했을 때, Speech Commands 테스트에서 전체 AUC는 3.7%, 혼동 그룹별 c‑AUC는 11.3% 향상되었다.
상세 분석
이 연구는 맞춤형 키워드 스팟팅 시스템이 “blue”와 “glue”처럼 발음이 유사한 단어를 구분하는 데 겪는 한계를 해결하고자 한다. 기존 대비 학습 배치에서 무작위로 키워드를 샘플링하던 방식은 혼동 가능한 단어가 같은 배치에 동시에 등장할 확률이 극히 낮아 False Accept가 빈번했다. 이를 극복하기 위해 저자들은 두 가지 핵심 기술을 도입한다. 첫째, Gemini 1.5 Pro와 같은 최신 LLM을 프롬프트하여 20개의 영어 모음 각각에 대해 100개의 구별 가능한 단어 리스트를 자동 생성한다. 프롬프트는 “해당 모음을 포함하는 간단한 단어 100개를 만들어 주세요”라는 형태로, 복잡하거나 긴 단어는 배제하도록 설계했다. 이렇게 얻어진 단어들은 모음 기반 그룹(예: /u:/, /aI/ 등)으로 묶여, 혼동 가능성이 높은 후보군을 체계적으로 확보한다. 둘째, Virtuoso TTS 엔진을 활용해 각 키워드당 100개의 음성 샘플을 생성한다. 726명의 화자와 5가지 억양을 무작위로 조합해 화자·억양 다양성을 확보함으로써, 실제 사용자 발화와 유사한 데이터 분포를 만든다. 이 합성 데이터와 기존 MSWC(다국어 구어 말뭉치) 데이터를 1:1 비율로 섞어 배치에 투입하면, GE2E 손실을 이용한 대조 학습이 자연스럽게 혼동 그룹 내 양성·음성 샘플을 동시에 학습하게 된다.
학습 효율 측면에서, 기존 연구가 O(N) 복잡도의 실시간 유사도 탐색을 필요로 했던 반면, 제안 방식은 사전 생성된 LLM·TTS 데이터베이스를 활용하므로 배치 구성 시 검색 비용이 거의 없으며, 메모리 오버헤드도 최소화된다. 또한, LLM과 TTS는 다국어 지원이 가능하므로, 자원이 제한된 언어에서도 동일한 파이프라인을 적용할 수 있다.
평가에서는 Speech Commands와 LibriPhrase‑1s 두 데이터셋을 사용했다. 전체 35개 키워드에 대한 전통적인 EER과 AUC는 각각 4.4%와 3.7% 개선됐으며, 특히 모음 그룹별 c‑AUC는 평균 11.3% 상승했다. 이는 혼동 그룹에 초점을 맞춘 학습이 실제 사용자 경험을 더 잘 반영한다는 것을 의미한다. 그러나 매우 낮은 False Accept 구간(FAR < 1%)에서는 합성 음성의 편향으로 인해 약간의 성능 저하가 관찰되었으며, 이는 향후 적대적 학습이나 TTS 품질 개선으로 보완될 수 있다.
요약하면, LLM‑Synth4KWS는 (1) 자동화된 혼동 키워드 생성, (2) 대규모 다양성 확보 TTS 합성, (3) GE2E 기반 효율적 대조 학습이라는 세 축을 결합해 맞춤형 KWS의 정확도와 확장성을 동시에 끌어올린 혁신적 접근이다.
댓글 및 학술 토론
Loading comments...
의견 남기기