WaveCycleGAN2 고품질 음성 파형 생성을 위한 시간 영역 신경 포스트필터

WaveCycleGAN2는 기존 WaveCycleGAN에서 발생하던 다운·업샘플링에 의한 앨리어싱 문제를 해결하기 위해 다운·업샘플링 없이 확장된 dilated convolution 기반 생성기를 도입하고, 파형 도메인과 멜 스펙트로그램·MFCC·위상 스펙트럼 등 다중 음향 파라미터 도메인 판별기를 결합한 구조를 제안한다. 실험 결과, 일본어 내부 데이터와 공개 LJSpeech 데이터 모두에서 앨리어싱이 크게 감소하고, 주관적 청취 테스트에서 …

저자: Kou Tanaka, Hirokazu Kameoka, Takuhiro Kaneko

WaveCycleGAN2 고품질 음성 파형 생성을 위한 시간 영역 신경 포스트필터
본 논문은 통계 기반 파라메트릭 음성 합성(SPSS) 및 기존 분석‑합성(ANA‑SYN) 시스템에서 생성된 음성 파형이 인간 청취자에게 인공적으로 들리는 문제를 해결하고자 한다. 기존의 WaveCycleGAN은 Cycle‑Consistent GAN 구조를 이용해 합성 파형을 자연 파형으로 변환했으며, 다운·업샘플링 모듈을 사용해 연산 효율성을 확보했지만, 이 과정에서 앨리어싱(aliasing) 현상이 발생해 파형의 고주파 성분이 왜곡되는 것이 확인되었다. 이러한 왜곡은 청감에 민감한 음성 품질을 크게 저하시킨다. 문제 해결을 위해 저자들은 두 가지 주요 개선점을 제시한다. 첫 번째는 생성기(Generator) 설계에서 다운·업샘플링 모듈을 완전히 제거하고, dilated convolution을 활용한 구조로 교체한 것이다. dilated convolution은 필터 간격을 늘려 receptive field를 넓히면서도 샘플 수를 유지하므로, 별도의 저역통과 필터링 없이도 고주파 정보를 보존한다. 이는 기존 stride‑based convolution이 Nyquist‑Shannon 정리를 만족하지 못해 발생하는 앨리어싱을 근본적으로 차단한다. 두 번째는 판별기(Discriminator)를 다중 도메인으로 확장한 것이다. 파형 도메인 판별기(DY_wave)와 함께 멜 스펙트로그램(DY_msp), MFCC(DY_mfcc), 위상 스펙트럼(DY_ph) 등 음향 파라미터 도메인 판별기를 동시에 학습시켜, 각 도메인에서의 현실감 있는 분포를 강제한다. 이를 통해 단일 파형 판별기가 과도하게 강력해져 발생하는 생성기 그래디언트 소실 문제를 완화하고, over‑smoothing 현상을 방지한다. 다중 도메인 판별기의 손실은 모두 adversarial loss 형태로 정의되어, 기존 L1/L2 기반 스펙트럼 손실과 차별화된다. 실험은 두 가지 데이터셋을 사용했다. 첫 번째는 내부 일본어 데이터(전문 여성 화자, 6,500문장 학습, 400문장 각 모델 학습, 30문장 평가)이며, 두 번째는 공개 LJSpeech(영어) 데이터셋이다. 객관적 평가는 멜‑cepstral coefficient의 modulation spectrum difference(MSD)를 이용해 over‑smoothing 정도를 정량화하였다. 결과는 SPSS가 높은 MSD 값을 보이며 과도한 스무딩을 나타냈고, 기존 WaveCycleGAN(V1)도 일부 개선했지만 여전히 차이가 있었다. 제안 모델 V2+ (다중 도메인 결합)는 MSD가 가장 낮아 자연 파라미터의 변동성을 거의 복원함을 확인했다. 주관적 평가에서는 5점 MOS 테스트를 수행했으며, V2msp와 V2mfcc는 자연음성과 통계적으로 차이가 없을 정도로 높은 점수를 기록했다. 반면, 단일 파형 판별기만 사용한 V2는 노이즈가 섞인 결과를 보였고, 위상 스펙트럼 판별기(V2ph)를 포함한 경우 침묵 구간이 잡음으로 변해 점수가 크게 떨어졌다. 이러한 결과는 파형 도메인 판별기와 음향 파라미터 도메인 판별기의 적절한 조합이 품질 향상에 핵심임을 시사한다. 또한, 제안 모델은 NVIDIA Tesla P100 GPU에서 초당 150 kHz 이상의 처리 속도를 달성했으며, 이는 실시간 TTS 시스템에 적용 가능한 수준이다. 비교 대상인 WaveNet(open)과 WaveGlow와도 비슷한 MOS 점수를 얻었지만, AR 기반 WaveNet보다 훨씬 빠른 추론 속도를 제공한다. 결론적으로, WaveCycleGAN2는 다운·업샘플링에 의한 앨리어싱을 구조적으로 제거하고, 다중 도메인 판별기를 통해 생성 품질을 크게 향상시킨 비AR 기반 시간 영역 포스트필터이다. 향후 연구에서는 다양한 언어·화자에 대한 일반화 검증, 더 복잡한 음성 변환(예: 감정 변환) 작업에의 적용, 그리고 실제 TTS 파이프라인에의 통합을 통해 상용화 가능성을 탐색할 필요가 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기