음성 샘플 6초만으로 즉시 구현하는 새로운 화자 음성 모방 TTS
초록
본 논문은 6초 길이의 음성 샘플만으로도 새로운 화자의 목소리를 즉시 모방할 수 있는 텍스트‑투‑스피치(TTS) 모델을 제안한다. 기존 다중 화자 TTS에 스피커 임베더 네트워크를 추가해 화자 임베딩을 추출하고, 이를 Tacotron 디코더에 입력함으로써 별도 학습 없이 실시간 음성 모방을 가능하게 한다. 실험 결과, 제안 모델은 기존 다중 화자 TTS와 비교해 음질·화자 유사도 모두 경쟁력을 보이며, 화자 임베딩이 잠재적인 음성 구조를 잘 포착함을 확인하였다.
상세 분석
본 연구는 두 가지 핵심 아이디어를 결합한다. 첫째, Tacotron 기반의 시퀀스‑투‑시퀀스 TTS 구조에 화자 임베딩을 직접 주입함으로써 다중 화자 합성을 가능하게 한 기존 접근을 그대로 채택한다. 둘째, 화자 임베딩을 사전 정의된 Lookup 테이블이 아니라, 별도 “스피커 임베더 네트워크”가 음성 샘플(로그‑멜 스펙트로그램)로부터 실시간으로 예측하도록 설계하였다. 이 네트워크는 1‑D 컨볼루션 5층과 완전 연결층 2층으로 구성되며, 맥스‑오버‑타임 풀링을 통해 입력 길이에 무관하게 고정 차원의 임베딩을 출력한다.
학습 단계에서는 기존 다중 화자 Tacotron과 동일한 L1 손실(멜·선형 스펙트로그램)만을 사용한다. 화자 임베딩 자체에 대한 직접적인 정답 라벨이 없으므로, 임베딩은 TTS 손실을 통해 간접적으로 최적화된다. 즉, 화자 임베더는 “화자 특성을 잘 요약하면 TTS 손실이 감소한다”는 목표 하에 파라미터를 업데이트한다.
데이터는 VCTK 코퍼스를 활용했으며, 109명의 화자 중 99명을 학습, 10명을 테스트에 보류하였다. 테스트용 화자는 학습에 전혀 노출되지 않았음에도 불구하고, 6초 길이의 무작위 음성 조각만으로 임베딩을 추출해 높은 화자 유사도를 보였다. 실험에서는 (1) 화자 임베딩의 잠재 구조를 PCA 시각화해 성별·억양 구분이 가능함을 확인하고, (2) 청취자 설문을 통해 음질과 화자 구분 가능성을 기존 다중 화자 모델과 비교하였다. 설문 결과, 음질에서는 두 모델 간 차이가 통계적으로 유의미하지 않았으며, 화자 구분 정확도에서도 제안 모델이 비슷하거나 약간 우수한 성능을 보였다.
이러한 설계는 몇 가지 장점을 제공한다. 첫째, 새로운 화자를 추가하려면 긴 녹음이나 텍스트 전사, 추가 학습이 필요 없으며, 6초 정도의 짧은 샘플만 있으면 즉시 모방이 가능하다. 둘째, 스피커 임베더의 입력을 음성 외에도 텍스트, 이미지 등으로 교체할 수 있어 향후 멀티모달 화자 제어가 용이하다. 셋째, 기존 다중 화자 TTS와 동일한 구조를 유지하므로, 이미 검증된 Tacotron 파이프라인을 그대로 활용할 수 있다.
한계점으로는 임베더가 학습 데이터에 편향될 가능성, 매우 짧은 샘플(예: 1~2초)에서는 화자 특성 추출이 불안정할 수 있음, 그리고 현재는 로그‑멜 스펙트로그램 기반이므로 노이즈가 많은 실시간 녹음에 대한 강건성 검증이 부족하다는 점을 들 수 있다. 향후 연구에서는 더 작은 샘플 길이, 잡음 환경, 그리고 멀티모달 입력을 통한 화자 임베딩 강화가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기