비병렬 시퀀스‑투‑시퀀스 음성 변환: 언어·화자 표현 분리 학습

** 본 논문은 비병렬 데이터만을 이용해 음성 변환을 수행하는 새로운 seq2seq 프레임워크를 제안한다. 음성 신호를 언어 내용과 화자 특성으로 명확히 분리하기 위해, 텍스트 기반 참조와 화자 억제 어드버설 학습을 결합한 인코더‑디코더 구조를 설계한다. 다단계 사전학습·미세조정 과정을 거쳐, 프레임 정렬 없이 자연스러운 길이·톤 변환이 가능하며, VCC2018 비병렬 최고 성능을 능가하고 병렬 seq2seq 기준에 근접한 결과를 얻는다. …

저자: Jing-Xuan Zhang, Zhen-Hua Ling, Li-Rong Dai

비병렬 시퀀스‑투‑시퀀스 음성 변환: 언어·화자 표현 분리 학습
** 본 논문은 비병렬 음성 변환(Voice Conversion, VC) 문제를 해결하기 위해, 언어 내용과 화자 특성을 명확히 분리(disentangle)한 새로운 시퀀스‑투‑시퀀스(seq2seq) 모델을 제안한다. 기존 비병렬 VC 방법은 크게 두 갈래로 나뉘는데, 첫 번째는 비병렬 데이터를 병렬 형태로 변환한 뒤 매핑을 학습하는 방식(예: TTS 기반 데이터 생성, 프레임 선택, CycleGAN 등)이며, 두 번째는 음성 신호에 내재된 언어·화자 정보를 직접 분리하는 방법이다. 전자는 텍스트 의존성이나 정렬 오류가 발생하기 쉽고, 후자는 화자 정보를 완전히 제거하지 못한다는 한계가 있다. 제안된 모델은 **인코더‑디코더 구조**를 기반으로 하며, 총 다섯 개의 주요 모듈로 구성된다. 1. **텍스트 인코더(E_t)** – 입력된 음소 전사(phoneme sequence)를 임베딩(H_t)으로 변환한다. 이 인코더는 컨볼루션 레이어와 BLSTM, 완전 연결층으로 이루어져 있다. 텍스트 임베딩은 언어 표현의 기준(reference) 역할을 한다. 2. **인식 인코더(E_r)** – 음성의 음향 특징(A) 시퀀스를 받아, 자동으로 음소 시퀀스와 정렬된 언어 임베딩(H_r)을 출력한다. 피라미드 BLSTM을 사용해 프레임 수(M)와 음소 수(N) 사이의 압축을 수행하고, 어텐션 기반 디코더가 음소 레이블을 예측한다. 학습 과정에서 H_r은 텍스트 인코더의 H_t와 동일한 차원(N)을 갖게 된다. 3. **스피커 인코더(E_s)** – 음성 신호를 전역 화자 벡터(h_s)로 변환한다. BLSTM과 평균 풀링, 완전 연결층으로 구성되며, 다중 화자 데이터셋을 이용해 사전 학습된다. 미세조정 단계에서는 각 화자마다 학습 가능한 임베딩을 초기화한다. 4. **보조 분류기(C_s)** – 언어 임베딩(H_r)으로부터 화자 라벨을 예측한다. 이 분류기는 어드버설 학습에 사용되며, 인식 인코더가 화자 정보를 최소화하도록 압력을 가한다. 5. **시퀀스‑투‑시퀀스 디코더(D_a)** – 언어 임베딩(H_t 또는 H_r)과 화자 벡터(h_s)를 결합해 복원된 음향 특징(Â)을 생성한다. 구조는 Tacotron과 유사하며, 텍스트‑투‑스피치와 자동 인코딩 두 가지 경로를 동시에 학습한다. 최종 파형은 WaveNet 보코더를 통해 합성된다. 학습 손실은 세 부분으로 나뉜다. 첫 번째는 **음소 분류 손실(L_CTC)** 로, 인식 인코더의 출력과 실제 음소 라벨 간 교차 엔트로피를 최소화한다. 두 번째는 **대조 손실(L_CT)** 로, H_r과 H_t 사이의 유사성을 높이고 서로 다른 위치 간의 거리를 멀리하게 만든다. 이는 임베딩이 동일한 의미를 공유하도록 강제한다. 세 번째는 **어드버설 손실(L_ADV)** 로, 보조 분류기의 예측을 균등 분포에 가깝게 만들면서 인식 인코더는 화자 정보를 억제한다. 보조 분류기 자체는 화자 라벨을 정확히 예측하도록 교차 엔트로피(L_SC)로 학습한다. 전체 학습은 두 단계로 진행된다. **사전 학습 단계**에서는 다중 화자 데이터셋을 사용해 스피커 인코더와 보조 분류기를 학습하고, 인식 인코더와 디코더를 텍스트와 음성 모두에 대해 훈련한다. **미세조정 단계**에서는 특정 변환 쌍(소스‑타깃)만을 사용해 화자 임베딩을 고정하거나 미세 조정하고, 전체 모델을 공동 최적화한다. 이 과정에서 텍스트 입력은 사용되지 않으며, 오직 음성 입력만으로 언어 임베딩을 추출한다. 실험에서는 VCC2018 비병렬 베이스라인(예: CycleGAN, INCA)과 최신 병렬 seq2seq VC(Tacotron‑based)와 비교하였다. 객관적 지표(MCD, F0 RMSE)와 주관적 평가(MOS, 화자 유사도) 모두에서 제안 모델이 비병렬 최고 성능을 능가했으며, 병렬 모델과 거의 차이가 없었다. 특히, **프레임 정렬이 필요 없는 seq2seq 구조** 덕분에 발화 길이와 억양을 자유롭게 조절할 수 있었으며, 이는 기존 프레임‑기반 변환이 제공하지 못하는 장점이다. 본 연구의 주요 기여는 다음과 같다. - **텍스트 기반 참조와 어드버설 학습을 결합한 두 단계 언어 표현 학습**으로, 언어와 화자 정보를 효과적으로 분리한다. - **다단계 사전‑미세조정**을 통해 제한된 타깃 데이터에서도 강건한 화자 임베딩을 얻는다. - **seq2seq 자동 정렬**을 활용해 비병렬 데이터에서도 프레임 정렬 제약 없이 자연스러운 변환을 구현한다. 앞으로는 제안된 프레임워크를 **few‑shot 화자 학습**, **다언어 변환**, **음성 클로닝** 등에 확장할 수 있으며, 화자 임베딩을 보다 작은 데이터로 학습하는 기술과 결합하면 실시간 음성 변환 시스템에도 적용 가능할 것으로 기대된다. **

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기