음성 변환을 위한 합성곱 신경망 기반 템버 변환

본 논문은 인간 청각이 스피커를 구분하는 데 중요한 요소인 피치와 템버를 분리·변환하기 위해, 콘스턴트‑Q 웨이브렛(CQT) 변환 후 합성곱 신경망(CNN) 기반의 딥 비주얼 애널로지 네트워크와 조건부 GAN을 결합한 모델을 제안한다. 제한된 데이터(1인 화자, 4단어)에서 실험했으며, 화자의 피치와 템버를 교환하는 초기 결과를 제시하지만 주파수 해상도와 학습 안정성에서 한계가 있다.

저자: Shariq Mobin, Joan Bruna

본 논문은 인간 청각이 수천 명의 화자를 구분할 수 있는 메커니즘을 이해하고, 이를 인공 신경망으로 재현해 한 화자의 음성을 다른 화자의 음성으로 변환하는 방법을 탐구한다. 서론에서는 피치와 템버라는 두 핵심 요소를 구분하고, 특히 템버가 화자 식별에 중요한 역할을 함을 강조한다. 음성 신호는 “무엇을 말하는가”(내용)와 “누가 말하는가”(화자)라는 두 요소가 얽혀 있는 비정상적(non‑stationary) 과정이므로, 이 둘을 분리·재조합하는 것이 핵심 과제이다. 기존 연구(

음성 변환을 위한 합성곱 신경망 기반 템버 변환

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기