한 번의 학습으로 다국어 음성 변환 구현

본 논문은 비병렬 말뭉치와 단일 목표 화자 음성만을 이용해 한 번의 학습으로 다국어 음성 변환을 수행하는 방법을 제안한다. Factorized Hierarchical Variational Autoencoder(FHVAE)를 활용해 화자 고유 특징과 언어·음소 컨텍스트를 분리하고, World Vocoder를 사용해 기존 STFT 기반보다 품질을 향상시켰다. 실험 결과, 한 개의 목표 화자 음성만으로도 합리적인 음성 품질과 화자 유사도를 달성했으며…

저자: Seyed Hamidreza Mohammadi, Taehwan Kim

한 번의 학습으로 다국어 음성 변환 구현
본 논문은 비병렬 음성 데이터와 목표 화자에 대한 단일 발화만을 이용해 한 번의 학습으로 다국어 음성 변환을 수행하는 새로운 프레임워크를 제시한다. 기존 음성 변환 연구는 병렬 코퍼스와 다량의 목표 화자 데이터를 필요로 했으며, 특히 교차 언어 변환에서는 목표 언어가 학습 단계에 포함되지 않아 성능이 제한적이었다. 이를 해결하기 위해 저자는 Hsu et al.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기