텍스트‑음성 합성 데이터 과적합 방지를 위한 적대적 훈련 기반 키워드 스팟팅

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

키워드 스팟팅(KWS) 모델에 대량의 TTS 합성 음성을 활용하면 비용과 시간은 절감되지만, 합성 데이터에만 존재하는 특성이 모델에 학습돼 실제 음성에서 성능이 떨어진다. 본 논문은 KWS 모델의 은닉 표현에서 합성·실제 음성을 구분하는 적대적 분류기를 추가하고, 그 손실을 역전시켜 KWS 모델이 도메인 특성을 무시하도록 학습한다. 실험 결과, 적대적 손실을 결합하면 실제 음성에 대한 오류율(FRR)이 최대 12% 감소하고, 실질적인 양성 데이터가 전혀 없을 때도 최대 8% 향상이 확인되었다.

상세 분석

본 연구는 두 가지 핵심 문제를 다룬다. 첫째, 최신 TTS 시스템(Virtuoso, AudioLM)으로 생성된 대규모 합성 음성은 품질이 높지만, 실제 음성에서 관찰되지 않는 미세한 아티팩트나 발화 다양성 부족으로 인해 KWS 모델이 합성 전용 특징을 학습하게 된다. 이는 특히 양성(키워드 포함) 실음성 데이터가 제한된 상황에서 과적합을 초래한다. 둘째, 이러한 도메인 격차를 완화하기 위해 적대적 도메인 적응(adversarial domain adaptation) 기법을 도입한다. 구체적으로, 기존 7계층 SVDF 기반 KWS 모델에 은닉층 출력(H)을 입력으로 하는 이진 합성/실제 분류기(Y_adv)를 연결하고, Gradient Reversal Layer(GRL)를 통해 역전된 그래디언트를 KWS 모델에 전달한다. 이때 전체 손실은 L_total = (1‑β)·L_sup + β·L_adv 로 정의되며, β는 두 손실의 가중치를, λ은 GRL을 통한 그래디언트 스케일링을 조절한다.

실험 설계는 실제 양성 데이터 비중을 0%~~100%까지 변화시키며, λ=0.30~~0.50 범위와 다양한 β 값을 탐색한다. 주요 결과는 다음과 같다. (1) 합성/실제 구분 정확도가 98%에 달할 정도로 은닉 표현에 도메인 특성이 강하게 남아 있음을 확인했다. (2) 적대적 손실을 포함한 모델은 실음성 평가 셋에서 FRR이 평균 10.6% 감소했으며, 특히 실양성 데이터를 전부 사용했을 때 11%까지 개선되었다. (3) 실양성 데이터가 전혀 없을 경우에도, 실음성 부정 데이터와 합성 양·음성 데이터를 활용한 적대적 학습만으로 평균 6%의 FRR 감소 효과가 나타났다. 반면, 실양성 데이터 비중이 중간(예: 1%~20%)일 때는 개선 효과가 미미하거나 오히려 성능 저하가 관찰되었다. 이는 적대적 압력이 실제 양성 신호와의 구분을 약화시켜, 충분한 양성 샘플이 있을 때만 이득이 극대화된다는 점을 시사한다.

또한, 은닉층 전체를 입력으로 사용할 경우 가장 높은 합성/실제 구분 정확도를 보였으며, 이는 모델이 여러 단계에서 도메인 특성을 축적한다는 증거다. 따라서 적대적 학습 시 모든 은닉층을 활용하는 것이 최적임을 확인하였다. 마지막으로 ROC 곡선 분석에서 적대적 모델이 다양한 FA/h(시간당 허위 수락) 수준에서 일관된 이득을 제공함을 보여, 실제 서비스 환경에서 임계값 조정에 유연하게 대응할 수 있음을 입증했다.

이 연구는 (1) 대규모 합성 음성 활용의 비용 효율성을 유지하면서 (2) 도메인 격차로 인한 과적합을 효과적으로 억제하고, (3) 실양성 데이터가 부족한 초기 단계에서도 실용적인 KWS 성능을 확보할 수 있음을 증명한다. 향후 연구에서는 더 복잡한 적대적 구조(예: 다중 도메인 분류기, 순환형 적대적 네트워크)와 다양한 TTS 품질 수준에 대한 견고성 평가가 기대된다.

텍스트‑음성 합성 데이터 과적합 방지를 위한 적대적 훈련 기반 키워드 스팟팅

초록

상세 분석

댓글 및 학술 토론

의견 남기기