통계 기반 음성 변환을 위한 피치‑의존형 WaveNet 보코더

통계 기반 음성 변환을 위한 피치‑의존형 WaveNet 보코더
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 WaveNet 보코더가 가진 구조적 한계를 극복하고자, 피치‑의존형 팽창 합성곱을 도입한 Quasi‑Periodic WaveNet(QPNet) 보코더와 프레임 단위 딥 뉴럴 네트워크 기반 스펙트럼 변환을 결합한 음성 변환 시스템을 제안한다. QPNet은 동일한 파라미터 규모에서 WaveNet보다 우수한 변환 성능을 보이며, 두 배 규모의 WaveNet과 비교해도 음질 차이가 거의 없음을 실험을 통해 입증한다.

상세 분석

WaveNet 보코더는 비조건적 확산 합성곱(dilated convolution) 구조와 대규모 파라미터로 높은 음성 품질을 달성했지만, 입력 특성이 훈련 데이터와 크게 달라지는 음성 변환(Voice Conversion, VC) 상황에서는 일반화 능력이 떨어진다. 특히 피치 정보가 변환 과정에서 크게 변동될 때, 고정된 팽창률은 시간‑주파수 구조를 충분히 반영하지 못해 음성의 자연스러움과 변환 정확도가 저하된다. 이를 해결하기 위해 저자들은 QPNet을 설계했으며, 핵심 아이디어는 “피치‑의존형 팽창 합성곱”이다. 입력 피치값에 따라 팽창률을 동적으로 조정함으로써, 주기성(Quasi‑periodicity)을 보다 정밀하게 모델링하고, 작은 네트워크 규모에서도 피치 제어성을 확보한다.

통계 기반 변환 단계에서는 기존의 GMM이나 DNN 기반 프레임 단위 스펙트럼 매핑을 그대로 사용한다. 입력 스펙트럼을 먼저 딥 뉴럴 네트워크에 의해 목표 화자 스펙트럼으로 변환하고, 동시에 선형 변환을 통해 피치와 포즈(시간) 정보를 보정한다. 변환된 스펙트럼과 보정된 피치 정보를 QPNet에 조건으로 제공하면, 보코더는 변환된 음향 특성을 반영한 고품질 파형을 생성한다.

실험에서는 동일 파라미터 수(≈ 12M)인 QPNet과 기존 WaveNet을 비교했으며, MOS와 ABX 테스트 결과 QPNet이 평균 0.3~0.5점 높은 점수를 기록했다. 또한, 파라미터를 두 배로 늘린 WaveNet과 비교했을 때, QPNet은 음질 차이가 0.1점 이하로 미미했으며, 연산량과 메모리 사용량에서는 현저히 효율적이었다. 이러한 결과는 피치‑의존형 팽창 합성곱이 변환된 피치 정보를 효과적으로 전달하고, 네트워크가 불필요하게 깊어지지 않아도 충분한 표현력을 가짐을 시사한다.

본 연구는 보코더 설계 단계에서 변환 특성을 고려한 구조적 변형이 VC 시스템 전체 성능을 크게 향상시킬 수 있음을 보여준다. 향후에는 다중 화자, 다중 언어 상황에 대한 확장과, 비정형 피치 변동을 더 정교히 모델링하는 방법론이 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기