워터스틴 생성적 적대 신경망 기반 다목소리 노래 합성기

본 논문은 노래 음성 합성 분야에서 기존의 자동 회귀 기반 모델이 갖는 한계를 극복하고자, Wasserstein‑GAN(WGAN) 프레임워크를 활용한 새로운 블록‑와이즈 생성 모델 WGANSing을 제안한다. 노래는 말보다 넓은 피치 범위와 긴 음절 지속시간을 가지며, 악보에 의해 피치와 타이밍이 강하게 제어된다. 이러한 특성 때문에 피치와 음색을 명확히 분리하여 모델링하는 것이 중요하다. 저자는 WORLD 보코더 파라미터를 사용해 음성 신호를 하모닉 스펙트럼(60 차원)과 비주기성(4 차원)으로 압축하고, 이를 64 차원의 특성 벡터로 만든다. 입력 조건은 세 가지로 구성된다. 첫째, 프레임‑단위 음소 정보를 원‑핫 인코딩한 벡터; 둘째, Spectral Autocorrelation(SAC) 알고리즘으로 추출한 연속적인 f0 곡선; 셋째, 화자 ID를 원‑핫 인코딩한 전역 벡터이다. 이 세 가지는 1×1 컨볼루션을 통해 결합되고, 무작위 노이즈와 함께 생성기의 입력으로 제공된다. 생성기 아키텍처는 DCGAN을 변형한 U‑Net 형태이며, 인코더와 디코더 각각 5개의 3×3 컨볼루션 레이어를 갖는다. 인코더에서는 스트라이드 컨볼루션으로 다운샘플링하고, 디코더에서는 선형 보간 후 일반 컨볼루션을 사용해 업샘플링한다. 이는 전치 컨볼루션이 초래할 수 있는 고주파 아티팩트를 방지한다. 스킵 연결을 통해 저‑고주파 정보를 직접 전달함으로써 블록 내부의 시간적 의존성을 효과적으로 학습한다. 판별기(critic)는 생성기의 인코더와 동일한 구조를 사용하지만, 활성화 함수는 LeakyReLU로 교체한다. WGAN 손실 함수는 Earth‑Mover 거리(EMD)를 근사해 훈련 안정성을 높이며, 판별기의 출력은 실수값으로 반환된다. 훈련 과정에서 저자는 재구성 손실 L_recon을 L1 거리 기반으로 도입하고, 이를 WGAN 손실에 λ=0.0005 비율로 가중합한다. 재구성 손실은 조건 입력과 실제 보코더 파라미터 사이의 차이를 최소화해, 순수 GAN 훈련 시 발생할 수 있는 모드 붕괴와 음질 저하를 완화한다. 실험 결과, 재구성 손실이 없는 경우 합성 음질이 크게 떨어짐을 확인했으며, 해당 손실을 포함했을 때만 청취 테스트에서 경쟁력 있는 결과를 얻었다. 시간적 모델링은 블록‑와이즈 접근법으로 구현된다. 하나의 블록은 N=128 프레임(5 ms 홉타임 기준 640 ms)이며, 인코더‑디코더 구조가 블록 내부 프레임 간 상관관계를 학습한다. 블록 간 연속성을 유지하기 위해 50 % 겹침과 삼각형 윈도우를 적용한 오버랩‑애드 방식을 사용한다. 이는 기존 RNN 기반 모델이 갖는 누적 지연 문제를 피하고, GPU 병렬 처리 효율을 크게 향상시킨다. 데이터셋은 NUS‑48E 코퍼스로, 12명의 비전문가 화자가 48곡(총 169 분)을 부른 녹음과 25,474개의 음소 라벨을 포함한다. 저자는 전체 곡 중 2곡을 테스트용으로 남겨두고, 나머지 46곡(≈158 분)을 훈련에 사용했다. 보코더 파라미터는 5 ms 홉타임으로 추출했으며, 차원 축소 후 64 차원으로 구성했다. 학습은 RMSProp 옵티마이저(학습률 1e‑4)로 3000 epoch 동안 진행했으며, 배치 크기와 클리핑 파라미터는 원 논문(WGAN) 권장값을 그대로 적용했다. 평가 방법은 두 가지이다. 객관적 평가는 Mel‑Cepstral Distortion(MCD)로, WGANSing은 5.2 dB의 MCD를 기록해 NPSS와 거의 동일한 수준을 보였다. 주관적 평가는 온라인 AB 테스트로, 참가자 27명이 5‑7초 길이의 샘플을 듣고 intelligibility와 audio quality를 평가했다. 결과는 WGANSing이 원본 WORLD 재합성과 비교해 큰 차이를 보이지 않았으며, NPSS 대비 약간 낮은 선호도를 보였지만 여전히 경쟁력 있었다. 특히 화자 변환 실험에서 성별이 다른 화자로 변환했을 때도 intelligibility는 유지되었으며, 음질은 약간 감소했지만 수용 가능한 수준이었다. 결론적으로, WGANSing은 컨볼루션 기반 블록‑와이즈 GAN이 노래 합성에서 시간적 연속성을 효과적으로 학습하고, 화자 변환과 같은 조건 변형에도 유연하게 대응할 수 있음을 입증한다. 다만, 재구성 손실 없이 순수 GAN만으로는 음질이 크게 저하되는 한계가 존재한다. 향후 연구에서는 고해상도 파형 생성기(예: WaveNet, WaveGAN)와 결합하거나, f0와 타이밍 변형을 직접 모델링하는 모듈을 추가해 더욱 자연스러운 노래 합성을 목표로 할 수 있다.

워터스틴 생성적 적대 신경망 기반 다목소리 노래 합성기

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기