비병렬 시퀀스‑투‑시퀀스 음성 변환: 언어·화자 표현 분리 학습

** 본 논문은 비병렬 음성 변환(Voice Conversion, VC) 문제를 해결하기 위해, 언어 내용과 화자 특성을 명확히 분리(disentangle)한 새로운 시퀀스‑투‑시퀀스(seq2seq) 모델을 제안한다. 기존 비병렬 VC 방법은 크게 두 갈래로 나뉘는데, 첫 번째는 비병렬 데이터를 병렬 형태로 변환한 뒤 매핑을 학습하는 방식(예: TTS 기반 데이터 생성, 프레임 선택, CycleGAN 등)이며, 두 번째는 음성 신호에 내재된 언어·화자 정보를 직접 분리하는 방법이다. 전자는 텍스트 의존성이나 정렬 오류가 발생하기 쉽고, 후자는 화자 정보를 완전히 제거하지 못한다는 한계가 있다. 제안된 모델은 **인코더‑디코더 구조**를 기반으로 하며, 총 다섯 개의 주요 모듈로 구성된다. 1. **텍스트 인코더(E_t)** – 입력된 음소 전사(phoneme sequence)를 임베딩(H_t)으로 변환한다. 이 인코더는 컨볼루션 레이어와 BLSTM, 완전 연결층으로 이루어져 있다. 텍스트 임베딩은 언어 표현의 기준(reference) 역할을 한다. 2. **인식 인코더(E_r)** – 음성의 음향 특징(A) 시퀀스를 받아, 자동으로 음소 시퀀스와 정렬된 언어 임베딩(H_r)을 출력한다. 피라미드 BLSTM을 사용해 프레임 수(M)와 음소 수(N) 사이의 압축을 수행하고, 어텐션 기반 디코더가 음소 레이블을 예측한다. 학습 과정에서 H_r은 텍스트 인코더의 H_t와 동일한 차원(N)을 갖게 된다. 3. **스피커 인코더(E_s)** – 음성 신호를 전역 화자 벡터(h_s)로 변환한다. BLSTM과 평균 풀링, 완전 연결층으로 구성되며, 다중 화자 데이터셋을 이용해 사전 학습된다. 미세조정 단계에서는 각 화자마다 학습 가능한 임베딩을 초기화한다. 4. **보조 분류기(C_s)** – 언어 임베딩(H_r)으로부터 화자 라벨을 예측한다. 이 분류기는 어드버설 학습에 사용되며, 인식 인코더가 화자 정보를 최소화하도록 압력을 가한다. 5. **시퀀스‑투‑시퀀스 디코더(D_a)** – 언어 임베딩(H_t 또는 H_r)과 화자 벡터(h_s)를 결합해 복원된 음향 특징(Â)을 생성한다. 구조는 Tacotron과 유사하며, 텍스트‑투‑스피치와 자동 인코딩 두 가지 경로를 동시에 학습한다. 최종 파형은 WaveNet 보코더를 통해 합성된다. 학습 손실은 세 부분으로 나뉜다. 첫 번째는 **음소 분류 손실(L_CTC)** 로, 인식 인코더의 출력과 실제 음소 라벨 간 교차 엔트로피를 최소화한다. 두 번째는 **대조 손실(L_CT)** 로, H_r과 H_t 사이의 유사성을 높이고 서로 다른 위치 간의 거리를 멀리하게 만든다. 이는 임베딩이 동일한 의미를 공유하도록 강제한다. 세 번째는 **어드버설 손실(L_ADV)** 로, 보조 분류기의 예측을 균등 분포에 가깝게 만들면서 인식 인코더는 화자 정보를 억제한다. 보조 분류기 자체는 화자 라벨을 정확히 예측하도록 교차 엔트로피(L_SC)로 학습한다. 전체 학습은 두 단계로 진행된다. **사전 학습 단계**에서는 다중 화자 데이터셋을 사용해 스피커 인코더와 보조 분류기를 학습하고, 인식 인코더와 디코더를 텍스트와 음성 모두에 대해 훈련한다. **미세조정 단계**에서는 특정 변환 쌍(소스‑타깃)만을 사용해 화자 임베딩을 고정하거나 미세 조정하고, 전체 모델을 공동 최적화한다. 이 과정에서 텍스트 입력은 사용되지 않으며, 오직 음성 입력만으로 언어 임베딩을 추출한다. 실험에서는 VCC2018 비병렬 베이스라인(예: CycleGAN, INCA)과 최신 병렬 seq2seq VC(Tacotron‑based)와 비교하였다. 객관적 지표(MCD, F0 RMSE)와 주관적 평가(MOS, 화자 유사도) 모두에서 제안 모델이 비병렬 최고 성능을 능가했으며, 병렬 모델과 거의 차이가 없었다. 특히, **프레임 정렬이 필요 없는 seq2seq 구조** 덕분에 발화 길이와 억양을 자유롭게 조절할 수 있었으며, 이는 기존 프레임‑기반 변환이 제공하지 못하는 장점이다. 본 연구의 주요 기여는 다음과 같다. - **텍스트 기반 참조와 어드버설 학습을 결합한 두 단계 언어 표현 학습**으로, 언어와 화자 정보를 효과적으로 분리한다. - **다단계 사전‑미세조정**을 통해 제한된 타깃 데이터에서도 강건한 화자 임베딩을 얻는다. - **seq2seq 자동 정렬**을 활용해 비병렬 데이터에서도 프레임 정렬 제약 없이 자연스러운 변환을 구현한다. 앞으로는 제안된 프레임워크를 **few‑shot 화자 학습**, **다언어 변환**, **음성 클로닝** 등에 확장할 수 있으며, 화자 임베딩을 보다 작은 데이터로 학습하는 기술과 결합하면 실시간 음성 변환 시스템에도 적용 가능할 것으로 기대된다. **

비병렬 시퀀스‑투‑시퀀스 음성 변환: 언어·화자 표현 분리 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기