비병렬 데이터 기반 적대적 학습 오토인코더를 이용한 음성 변환
초록
본 논문은 병렬 데이터 없이 다수의 화자를 대상으로 음성 변환을 수행하는 새로운 프레임워크를 제안한다. 하나의 화자‑독립 인코더와 화자별 디코더를 구성하고, 인코더 출력에 대해 화자 분류기를 이용한 적대적 손실을 추가함으로써 인코더가 화자 정보를 제거하도록 학습한다. 실험 결과, 훈련에 사용되지 않은 화자에도 일반화가 가능함을 확인했으며, 주관적 청취 테스트에서 변환 품질과 화자 일치도가 높은 점수를 얻었다.
상세 분석
이 연구는 음성 변환(Voice Conversion, VC) 문제를 비병렬 데이터 환경에서 해결하기 위해 ‘적대적 학습(autoencoder)’ 구조를 도입한 점이 가장 큰 특징이다. 기존 VC 방법은 주로 병렬 코퍼스(동일 문장을 여러 화자가 발음한 데이터)를 필요로 하거나, CycleGAN‑기반의 이미지‑전이 기법을 음성에 적용한 비병렬 접근법을 사용했다. 그러나 이미지‑전이와 달리 음성은 시간‑주파수 구조가 복잡하고, 스펙트로그램 재구성 과정에서 발생하는 위상이 중요한데, 이러한 점을 충분히 고려하지 못한 기존 방법들은 변환 품질에 한계를 보였다.
논문은 세 가지 핵심 요소로 구성된다. 첫째, 단일 인코더‑다중 디코더 구조이다. 인코더 E는 모든 화자의 음성 스펙트로그램을 동일한 저차원 표현 z로 압축하고, 각 화자 i에 대해 별도의 디코더 D_i가 z를 해당 화자의 음성으로 복원한다. 이 설계는 인코더가 화자에 무관한 ‘내용’ 정보를 학습하도록 강제한다. 둘째, 화자 분류기 C를 이용한 적대적 손실이다. C는 인코더 출력 z를 입력받아 화자 라벨을 예측하도록 학습되며, 인코더‑디코더는 C의 분류 정확도를 최소화하는 방향으로 업데이트된다. 수식 (1)에서 볼 수 있듯이 전체 목표는 재구성 손실 f_r와 분류 손실 f_c의 차이를 최소화하는 것이다. 여기서 f_r은 L1‑norm, f_c는 교차 엔트로피를 사용한다. 셋째, 상호정보(Mutual Information)와 분류 정확도의 관계를 이론적으로 연결한다. 제안된 Proposition 1은 화자 라벨 L과 인코더 출력 Z 사이의 상호정보 I(L;Z)가 분류 오류 확률 p_e에 의해 상하한이 제한된다는 사실을 제시한다. 즉, 분류기가 높은 오류율을 보일수록 Z는 화자 정보와 거의 독립적이라는 의미이며, 이를 통해 적대적 학습이 실제로 상호정보를 감소시키는 효과를 갖는다는 것을 정량적으로 설명한다.
아키텍처 측면에서 인코더와 디코더는 1‑차원 컨볼루션 레이어 3개로 구성되며, 커널 크기 3, 채널 수 256, 코드 길이 128을 사용한다. 인스턴스 정규화와 ReLU 활성화가 각 레이어 뒤에 적용되어 학습 안정성을 높인다. 화자 분류기 역시 동일한 컨볼루션 구조에 마지막 레이어만 화자 수(|L|)에 맞게 설정한다.
실험에서는 VCTK‑ 기반의 5명 화자를 사용했으며, 4명은 훈련, 1명은 테스트(훈련에 포함되지 않은 화자)로 설정했다. 스펙트로그램은 1024‑FFT, 256‑hop, 128‑멜 필터, 40‑8000 Hz 범위로 추출하였다. 재구성 손실은 L1, 분류 손실은 교차 엔트로피를 사용했으며, 최종 음성 복원은 Griffin‑Lim 알고리즘을 적용했다.
주관적 평가로는 AB, ABX, MOS 세 가지 테스트를 수행했다. AB 테스트에서는 변환된 음성이 목표 화자와 동일하게 인식되는 비율이 0.650.91 사이(95% 신뢰구간)로, 특히 성별이 다른 화자 간 변환에서 높은 성공률을 보였다. ABX 테스트에서도 목표 화자와 가장 유사하다고 판단되는 비율이 0.750.91에 달했으며, 훈련에 포함되지 않은 화자(MX)에서도 비슷한 수준을 유지했다. MOS 결과는 2.0~2.7(5점 척도)으로, 변환 품질에 아직 개선 여지가 있음을 나타낸다. 저자는 Griffin‑Lim 기반 복원 과정에서 스펙트로그램 미세 차이가 청취 품질 저하로 이어진다고 분석하고, 이를 해결하기 위해 별도의 신경망 기반 음성 합성 모델을 도입하는 방안을 제시한다.
전체적으로 이 논문은 화자 독립적인 잠재 표현 학습과 다중 디코더 기반 변환이라는 두 축을 결합함으로써, 비병렬 데이터 환경에서도 화자 간 변환을 효과적으로 수행할 수 있음을 실험적으로 입증한다. 또한, 적대적 학습을 통해 상호정보를 직접 최소화한다는 이론적 근거를 제공함으로써, 기존 GAN‑기반 방법보다 더 명시적이고 해석 가능한 학습 목표를 설정한다. 다만, 최종 음성 합성 단계에서 발생하는 아티팩트와 변환 품질 한계는 향후 연구 과제로 남는다.
댓글 및 학술 토론
Loading comments...
의견 남기기