감정 일관성 기반 데이터 증강과 자기지도 대비 학습으로 향상된 아동 동화 음성 합성

감정 일관성 기반 데이터 증강과 자기지도 대비 학습으로 향상된 아동 동화 음성 합성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 감정이 일치하는 문장을 자동으로 매칭해 긴 형태의 학습용 오디오를 생성하고, SimCLR 기반 자기지도 대비 학습을 적용해 스타일 토큰을 정교화함으로써, 어린이 동화책의 다문장 음성 합성에서 자연스러운 억양과 적절한 문장 간 멈춤을 구현한다. 실험 결과, 제안 방법은 기존 연속 문장 결합 방식보다 L1 손실과 감정 분류 정확도가 개선되고, 청취자 평가에서도 자연스러움과 스타일 적합도가 우수함을 보였다.

상세 분석

이 연구는 소규모 아동 동화 음성 데이터셋(총 6.5시간)이라는 제한된 자원을 극복하기 위해 두 가지 핵심 기술을 결합한다. 첫 번째는 ‘감정 일관성 기반 데이터 증강’이다. 저자는 사전 학습된 T5‑기반 텍스트 감정 분류기를 미세조정하여 각 문장의 감정을 5가지(중립, 기쁨, 두려움, 분노, 슬픔 등)로 라벨링한다. 이후 동일 감정 라벨을 가진 문장들을 순차가 아닌 감정 일치 기준으로 연결해 2문장 혹은 3문장 길이의 오디오를 만든다. 이 과정에서 실제 데이터에서 추정한 평균 509 ms, 표준편차 223 ms의 정규분포를 이용해 문장 사이에 자연스러운 침묵 구간을 삽입함으로써, 모델이 적절한 인터‑센텐스(pause) 타이밍을 학습하도록 설계했다. 감정 일치 결합은 기존 연구가 주로 연속된 문장을 무조건 연결한 것과 달리, 감정 변동이 큰 경우 스타일 토큰이 혼합되는 현상을 방지한다는 점에서 의미가 크다.

두 번째 핵심은 ‘자기지도 대비 학습(Self‑Supervised Contrastive Learning)’이다. GST(Global Style Token) 모듈의 레퍼런스 인코더에 SimCLR 방식을 적용해, 동일 오디오에 대해 500 ms 길이의 랜덤 마스킹을 두 번 수행한 두 뷰(view)를 생성한다. 이 두 뷰의 임베딩을 대비(loss)로 끌어당기고, 배치 내 다른 샘플과는 멀어지게 함으로써, 레퍼런스 인코더가 감정·억양 등 전역 스타일 정보를 보다 견고하게 추출하도록 만든다. 대비 손실은 전체 TTS 학습 손실에 0.1의 스케일 팩터로 가중합되며, 이는 스타일 임베딩의 L1 예측 오차를 현저히 감소시켰다(모델 M4에서 0.075 → 0.212 대비).

모델 아키텍처는 Tacotron2 기반에 stepwise monotonic attention과 reduction factor 2를 적용해 긴 시퀀스 처리 능력을 강화했으며, TP‑GST(Text‑Predicted GST)를 통해 텍스트만으로 스타일 토큰을 예측한다. 음성 합성 단계에서는 사전 학습된 WaveGlow를 사용해 멜 스펙트로그램을 파형으로 변환한다.

실험에서는 LJSpeech과 LibriTTS로 사전 학습·프리트레인을 진행한 뒤, Blizzard 2017 챌린지의 어린이 동화 데이터로 파인튜닝했다. 네 가지 모델(M1~M4)을 비교했을 때, 감정 일치 기반 2문장 증강(M3)만으로도 L1 손실이 0.119로 감소했고, 대비 학습을 추가한 M4에서는 0.075까지 낮아졌다. 또한, GST 임베딩을 이용한 감정 분류(SVM) 정확도가 M1(71.5 %)에서 M4(75.3 %)로 향상되었다. 청취자 주관 평가에서도 M4가 자연스러움과 스타일 적합도에서 베이스라인(M2)보다 유의미하게 높은 점수를 받았다.

이러한 결과는 (1) 감정 일관성을 고려한 데이터 증강이 스타일 토큰 학습에 실질적인 이득을 제공하고, (2) 대비 학습이 GST 임베딩의 표현력을 강화해 감정 인식 및 억양 재현 능력을 높이며, (3) 인터‑센텐스 pause modeling이 긴 문맥의 자연스러운 흐름을 구현한다는 점을 입증한다. 다만, 감정 분류기의 라벨 정확도(93 %)와 임계값 설정에 따라 증강 데이터 품질이 변동할 수 있으며, 현재는 영어 단일 화자에 국한된 실험이므로 다언어·다화자 확장에 대한 추가 검증이 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기