베일 다중 교사 학습으로 불확실성을 포착하는 베이지안 TTS

베일 다중 교사 학습으로 불확실성을 포착하는 베이지안 TTS
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 연속값 자동회귀(TTS) 모델에 베이지안 증거학습(Evidential Deep Learning)을 도입한 BELLE 프레임워크를 제안한다. Normal‑Inverse‑Gamma(NIG) 분포를 이용해 프레임별 평균과 분산을 동시에 예측함으로써 텍스트‑음성 매핑의 “one‑to‑many” 불확실성을 데이터 의존적으로 모델링한다. 단일 레퍼런스 데이터만으로는 분산 추정이 어려우므로, 여러 사전 학습된 TTS 모델이 생성한 합성 샘플을 통계적 지원 집합으로 활용하는 “one‑to‑many” 학습 전략을 도입한다. 실험 결과, 5천 시간 규모 데이터만으로도 5만 시간 규모 오픈소스 모델 대비 25.8% 상대 WER 감소와 스트리밍 품질 향상을 달성하였다.

상세 분석

BELLE은 기존 연속값 AR TTS 모델이 갖는 고정 분산 가정의 한계를 근본적으로 뛰어넘는다. 기존 모델들은 평균 μ만을 예측하고, 분산 σ²는 사전에 고정하거나 간단히 정규화된 값으로 설정한다. 이는 자연스러운 발화의 억양·리듬·음색 변동성을 반영하지 못해, 동일 텍스트에 대해 동일한 스펙트로그램을 반복 생성하게 만든다. BELLE은 이를 해결하기 위해 증거학습(Evidential Deep Learning) 개념을 차용한다. 구체적으로, 각 프레임 t에 대해 NIG 사전(μ,σ²)~NIG(γ_t,ν_t,α_t,β_t)를 예측하고, 이 하이퍼파라미터들을 직접 네트워크 출력으로 학습한다. NIG는 정규-역감마 결합으로, 평균과 분산을 동시에 확률적으로 모델링할 수 있어 데이터 의존적(heteroscedastic) 불확실성을 자연스럽게 포착한다.

학습 단계에서는 evidential loss L_edl = L_NLL + λ L_R을 사용한다. NLL은 예측된 NIG가 실제 멜 스펙트럼을 얼마나 잘 설명하는지를 측정하고, 정규화 항 L_R은 α,β,ν 등의 파라미터가 비현실적인 값으로 발산하는 것을 억제한다. 이렇게 하면 단일 레퍼런스(텍스트‑음성 쌍)만으로도 모델이 “분산”을 학습할 수 있지만, 실제로는 분산 추정에 충분한 관측치가 필요하다. 이를 보완하기 위해 저자들은 다중 사전 학습 TTS 모델(예: MELLE, VALL‑E 등)에서 생성된 합성 음성을 “통계적 지원 집합”으로 활용한다. 이 합성 샘플들은 정답이 아니므로 교사 강제(teacher‑forcing) 방식이 아니라, 분산 구조를 추정하기 위한 통계적 근거로만 사용한다. 결과적으로 모델은 특정 텍스트에 대해 다양한 가능한 스펙트로그램 분포를 학습하고, 추론 시 단일 전방향 패스로 평균과 분산을 동시에 출력한다.

BELLE은 파라미터 수와 추론 지연 시간 측면에서 기존 AR 모델과 동일하게 설계되었다. NIG 파라미터를 예측하는 추가 선형 레이어와 활성화 함수만 삽입되며, 샘플링 단계에서도 역감마와 정규분포에서 각각 한 번씩 샘플링한 뒤 최종 정규 샘플을 생성한다. 따라서 Monte‑Carlo Dropout이나 베이지안 신경망(BNN)처럼 다중 포워드 패스를 요구하지 않는다. 이는 실시간 스트리밍 TTS에 필수적인 저지연 특성을 유지하면서도, 불확실성 정량화와 다양성 있는 출력 생성을 가능하게 한다.

실험에서는 5천 시간 규모의 다국어(중국어·영어) 데이터셋으로 학습한 BELLE가 동일 아키텍처의 MELLE(고정 분산) 대비 25.8% 상대 WER 감소를 보였으며, 50천 시간 규모 오픈소스 모델 대비도 유의미한 개선을 기록했다. 또한, 스트리밍 설정에서 청크 기반 생성 시 품질 저하 없이 부드러운 전환을 유지했다. Ablation 연구에서는 (1) 합성 지원 집합을 사용하지 않은 경우 분산 추정이 불안정해져 WER가 12% 정도 상승하고, (2) λ 정규화 파라미터를 제거하면 α,β가 과도하게 커져 샘플링이 과다하게 변동하는 현상이 관찰되었다.

한계점으로는 합성 교사 모델의 품질에 의존한다는 점과, NIG의 대각선 공분산 가정이 프레임 간 상관관계를 충분히 반영하지 못한다는 점이 있다. 향후 연구에서는 다변량 Student‑t 대신 풀 공분산 구조를 갖는 베이지안 모델을 탐색하거나, 합성 지원 집합을 자동으로 생성·정제하는 메커니즘을 도입해 데이터 효율성을 높일 수 있을 것이다.


댓글 및 학술 토론

Loading comments...

의견 남기기