음성 변조를 위한 음성‑음성 합성 네트워크
초록
본 논문은 기존의 음성 인식·합성 모델을 결합해, 한 화자의 내용은 유지하면서 다른 화자의 음성 스타일을 입히는 Speech‑to‑Speech Style Transfer 시스템(STSSN)을 제안한다. LibriSpeech와 VCC2016 데이터를 활용해 DeepSpeech 기반 텍스트 변환, 스피커 임베딩, Tacotron‑2 기반 스펙트로그램 합성을 순차적으로 수행한다. CycleGAN 기반 베이스라인과 비교했을 때, 청취자 주관 평가(MOS)에서 더 높은 품질을 보였으며, 향후 엔드‑투‑엔드 구조로의 통합을 목표로 한다.
상세 분석
본 연구는 “음성‑음성 변환”이라는 비교적 미개척 영역에 대해 실용적인 접근법을 제시한다는 점에서 의미가 있다. 저자들은 최신 음성 인식 모델인 DeepSpeech와 텍스트‑투‑스피치(Tacotron‑2) 모델을 그대로 가져와 파이프라인을 구성하고, 중간에 스피커 스타일 임베딩을 삽입함으로써 다중 화자 합성을 가능하게 했다. 이 설계는 기존 모델들의 오픈소스 구현을 재활용함으로써 구현 난이도를 크게 낮추었으며, 학습 비용을 절감하는 장점이 있다.
하지만 기술적인 관점에서 몇 가지 한계가 눈에 띈다. 첫째, 전체 시스템이 “텍스트 → 스펙트로그램”이라는 이중 변환 과정을 거치기 때문에 원본 음성의 미세한 억양·감정·노이즈 정보가 손실될 위험이 있다. 저자들은 이를 “텍스트 병목”이라고 명시하고, 향후 엔드‑투‑엔드 모델로 대체할 계획을 밝히지만, 현재 구현에서는 이러한 손실이 MOS에 어느 정도 영향을 미쳤을 가능성이 있다.
둘째, 스피커 임베딩은 별도 LSTM 기반 인코더(
댓글 및 학술 토론
Loading comments...
의견 남기기