WaveCycleGAN 합성 음성 자연 파형 변환
본 논문은 사이클 일관성 적대 신경망(CycleGAN)을 활용해 합성 음성 파형을 직접 자연 음성 파형으로 변환하는 방법을 제안한다. 기존의 보코더 기반 합성 시스템에서 발생하는 과도한 스무딩과 보코더 오류를 파형 수준에서 교정함으로써, 음성의 세부 구조와 자연스러움을 크게 향상시킨다.
저자: Kou Tanaka, Takuhiro Kaneko, Nobukatsu Hojo
본 논문은 통계 기반 파라메트릭 음성 합성 및 음성 변환 시스템에서 흔히 발생하는 과도한 스무딩(over‑smoothing)과 보코더 오류(vocoding error)라는 두 가지 주요 품질 저하 요인을 해결하고자 한다. 기존 방법들은 주로 멜‑cepstrum 등 저차원 음향 특징을 후처리하거나, 전역 분산·변조 스펙트럼을 보정하는 방식으로 한계가 있었다. 특히, 이러한 접근법은 파형 자체를 직접 수정하지 않기 때문에 보코더가 남긴 왜곡을 완전히 제거하지 못한다.
이에 저자들은 파형 수준에서 직접 변환을 수행하는 새로운 프레임워크인 WaveCycleGAN을 제안한다. 핵심 아이디어는 사이클 일관성 적대 신경망(CycleGAN)을 이용해 합성 파형(x)과 자연 파형(y) 사이의 양방향 매핑을 학습하는 것이다. 두 생성기 Gₓ→ᵧ와 Gᵧ→ₓ는 각각 합성 파형을 자연 파형으로, 자연 파형을 합성 파형으로 변환한다. 두 판별기 Dᵧ와 Dₓ는 각각 변환된 파형이 목표 도메인에 속하는지를 판별한다.
학습 목표는 세 가지 손실 함수의 가중합으로 구성된다. 첫 번째는 전통적인 적대 손실(L_gan)으로, 생성기가 판별기를 속여 실제와 구분되지 않는 파형을 만들도록 유도한다. 두 번째는 사이클 일관성 손실(L_cyc)으로, Gₓ→ᵧ∘Gᵧ→ₓ(·)≈· 및 Gᵧ→ₓ∘Gₓ→ᵧ(·)≈· 를 강제해 매핑이 역전 가능하도록 만든다. 이는 비정렬된 데이터셋에서도 안정적인 학습을 보장한다. 세 번째는 정체성 손실(L_id)로, 이미 목표 도메인에 속하는 파형을 입력했을 때 변형이 최소화되도록 함으로써 언어적 내용(음소, 억양 등)의 보존을 촉진한다.
네트워크 구조는 게이트형 CNN(gated CNN) 기반이다. 각 은닉층은 선형 변환과 시그모이드 게이트의 원소별 곱으로 구성된 GLU를 사용해, 정보 흐름을 동적으로 조절한다. 이는 LSTM과 유사한 장기 의존성 모델링 능력을 제공하면서도 완전한 병렬 연산이 가능해 학습 효율을 높인다. 또한, 다운샘플링·업샘플링 블록, 잔차 연결, 픽셀 셔플러(pixel shuffler) 등을 결합해 고해상도 파형을 효과적으로 재구성한다.
실험은 일본어 단일 화자 데이터(전체 6,500문장, 테스트 400문장, 샘플링 22.05 kHz)를 사용했다. 기준 시스템은 5 층 1,024 유닛 DNN 기반 통계 파라메트릭 합성이며, 비교 시스템은 GAN 기반 후처리(GANv)로, 이는 음향 특징(멜‑cepstrum 등)을 변환하지만 파형 자체는 수정하지 않는다. 평가 방법은 주관적 청취 테스트(MOS)와 객관적 스펙트럼 분석이다. 결과는 다음과 같다. (1) MOS 점수에서 WaveCycleGAN은 기준 대비 약 0.45점, GANv 대비 0.30점 상승하였다. (2) 스펙트럼 분석에서 전역 분산과 변조 스펙트럼이 자연 음성에 근접했으며, 과도한 스무딩이 현저히 감소했다. (3) 무성 구간에서도 보코더 오류가 크게 줄어들어, 전체 파형이 보다 자연스러운 톤과 질감을 갖게 되었다.
결론적으로, WaveCycleGAN은 파형 수준에서 직접적인 합성‑자연 변환을 가능하게 함으로써, 기존 보코더 기반 합성 시스템의 근본적인 한계를 극복한다. 사이클 일관성 및 정체성 손실을 결합한 구조는 비정렬 데이터에서도 안정적인 학습을 보장하고, 게이트형 CNN은 장·단기 의존성을 효과적으로 포착한다. 이는 향후 고품질 ‘보코더‑리스’ 음성 합성 및 변환 연구에 중요한 기반이 될 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기