표현 혼합을 활용한 자연스러운 TTS 합성

본 논문은 문자와 음소 정보를 동시에 활용할 수 있는 ‘표현 혼합(representation mixing)’ 방식을 제안한다. 두 종류의 언어 표현을 마스크와 임베딩으로 결합한 뒤, 다중 스케일 잔차 합성곱(SMRC)과 양방향 LSTM 인코더, 가우시안 혼합 어텐션 디코더를 통해 로그 멜 스펙트로그램을 예측한다. 예측된 스펙트로그램은 L‑BFGS와 Griffin‑Lim을 거친 후 WaveNet으로 최종 음성을 합성한다. 실험 결과, 문자 전용 …

저자: Kyle Kastner, Jo~ao Felipe Santos, Yoshua Bengio

표현 혼합을 활용한 자연스러운 TTS 합성
본 연구는 텍스트‑투‑스피치(TTS) 시스템에서 문자와 음소라는 두 가지 서로 다른 언어 표현을 동시에 활용할 수 있는 ‘표현 혼합(representation mixing)’ 기법을 제안한다. 기존 TTS 모델은 문자 입력만 사용하거나, 음소 입력만 사용하도록 설계돼 발음 제어가 제한적이었다. 특히 동음이의어나 문맥에 따라 발음이 달라지는 경우(예: “wind”의 명사·동사 형태)에는 문자만으로는 정확한 발음을 보장하기 어려웠다. 이러한 문제를 해결하기 위해 저자들은 입력 시퀀스 l_j 와 마스크 m 을 정의하고, 문자와 음소 각각에 대한 임베딩 e_c, e_p 을 만든 뒤 마스크에 따라 선형 결합해 e_j 를 만든다. 이후 마스크 자체에 대한 임베딩 e_m 을 더해 최종 입력 e_f 를 구성한다. 이 과정은 그림 1에 시각화되어 있으며, 문자와 음소가 섞인 데이터에 대해 모델이 동시에 학습하도록 만든다. 인코더는 Stacked Multi‑scale Residual Convolution (SMRC) 블록으로 구성된다. 각 SMRC 레이어는 1×1, 3×3, 5×5 컨볼루션을 채널 차원에서 연결하고, 잔차 연결과 배치 정규화를 적용해 깊은 네트워크에서도 안정적인 학습을 가능하게 한다. SMRC 출력은 1024 차원의 양방향 LSTM에 전달되어 시퀀스 전반에 걸친 컨텍스트 정보를 압축한다. 디코더는 Gaussian Mixture Attention을 사용한다. 기존의 exponential 기반 평균 스텝 대신 softplus 활성화를 도입해 학습 초기에 발생하던 불안정을 크게 감소시켰다. 어텐션 가중치는 LSTM 기반 컨트롤러에 의해 동적으로 조정되며, 이후 두 개의 디코더 LSTM 레이어가 프리넷 출력, 어텐션 컨텍스트, 이전 레이어의 은닉 상태를 입력으로 받아 멜 스펙트로그램 프레임을 순차적으로 예측한다. 여기서 프리넷은 모든 레이어에 dropout을 적용해 노이즈를 주입함으로써 모델의 일반화 능력을 강화한다. 학습은 MSE 손실을 사용하고, TBPTT(Truncated Back‑Propagation Through Time)를 적용해 긴 오디오 시퀀스를 효율적으로 처리한다. TBPTT는 일정 길이(256)씩 미니배치를 구성하고, 시퀀스 끝에서만 상태를 초기화함으로써 메모리 사용량을 절감한다. 예측된 로그 멜 스펙트로그램을 실제 파형으로 변환하기 위해 두 단계 파이프라인을 도입한다. 첫 단계는 L‑BFGS 최적화를 통해 초기 파형을 복원하고, 두 번째 단계는 수정된 Griffin‑Lim 알고리즘으로 파형을 정제한다. 이 두 단계는 각각 실시간 비율이 낮아 품질이 제한적이지만, 최종 단계에서 사전 학습된 WaveNet을 조건부로 사용해 고품질 음성을 생성한다. L‑BFGS + Griffin‑Lim 파이프라인은 개발 단계에서 빠른 품질 검증을 가능하게 하며, WaveNet에 입력하기 전의 스펙트로그램 품질을 향상시킨다. 실험은 LJSpeech 데이터셋(≈24 시간, 13 k 오디오)에서 수행되었으며, 문자와 음소를 0.5 확률로 섞어 학습하였다. 데이터 전처리 단계에서는 텍스트를 소문자화하고, 약어와 숫자를 풀어쓴 뒤, Gentle과 같은 강제 정렬 도구를 이용해 음소 시퀀스를 추출했다. 학습 과정에서 각 단어를 무작위로 문자 혹은 음소로 교체함으로써 데이터 증강 효과를 얻었다. 사용자 선호도 테스트는 세 가지 비교(문자 전용 vs. 혼합, 음소+문자 백오프 vs. 혼합, 혼합 내 문자 vs. 음소)로 구성됐으며, 22명의 참여자에게 429개의 선택지를 제공했다. 결과는 모든 경우에서 혼합 모델이 통계적으로 유의미하게 선호되었으며, 특히 혼합 모델에 음소 정보를 제공했을 때 가장 높은 선호도를 보였다. 이는 표현 혼합이 데이터 증강 효과와 발음 제어 능력을 동시에 제공함을 입증한다. 결론적으로, 이 논문은 문자와 음소를 유연하게 결합하는 간단하면서도 효과적인 방법을 제시하고, 이를 기반으로 한 TTS 파이프라인이 기존 문자 전용 혹은 음소 전용 모델에 비해 품질 및 사용성 측면에서 우수함을 실증한다. 또한 마스크 임베딩을 포함한 표현 혼합이 인코더‑디코더 구조 전반에 걸쳐 안정적인 학습을 가능하게 하며, 실제 서비스 환경에서 다양한 입력 형태를 하나의 모델로 처리할 수 있는 실용성을 제공한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기