다중 가이드와 마스크 학습을 결합한 제로샷 보이스 컨버전 모델 MaskVCT

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MaskVCT는 마스크 기반 코덱 트랜스포머와 다중 classifier‑free guidance(CFG)를 이용해 제로샷 보이스 컨버전을 수행한다. 연속형 및 양자화된 음절 토큰을 동시에 활용해 언어 내용과 화자 특성을 효과적으로 분리하고, 피치 정보를 선택적으로 조건화한다. 두 가지 운영 모드(All·Spk)를 통해 intelligibility와 화자 유사도 사이를 자유롭게 조절할 수 있으며, 실험 결과 기존 베이스라인 대비 화자·악센트 유사도는 최고 수준, WER·CER는 경쟁력 있는 수준을 보였다.

상세 분석

MaskVCT는 최근 급부상한 CodecLM 패러다임을 확장한 모델이다. 기본 아이디어는 16 kHz D A C 코덱으로부터 9개의 residual vector quantization(RVQ) 코드북을 추출하고, 이를 마스크 기반 비자율 생성(masked generative) 방식으로 복원하는 것이다. 기존 MaskGCT와 달리, MaskVCT는 세 가지 조건(화자 프롬프트 Aₚ, 언어 내용 L, 피치 P)을 동시에 다루기 위해 triple‑CFG를 도입한다. 여기서 CFG는 “classifier‑free guidance”의 약자로, 조건이 없는 로그 확률을 빼는 대신 언어‑only 조건 로그를 빼는 변형을 사용한다. 이는 VC가 반드시 원본 텍스트를 보존해야 하는 특성에 맞추어, 화자·피치·언어 각각에 가중치 ω_all, ω_spk, ω_ling을 부여해 원하는 균형을 조절한다.

언어 조건은 두 갈래로 제공된다. 첫 번째는 사전학습된 SylBoost 모델에서 얻은 음절 단위 양자화 토큰(이산형)이며, 이는 프레임당 8.33 Hz의 저주파 토큰으로 피치와 화자 정보가 크게 억제된다. 두 번째는 wav2vec‑2.0 등에서 추출한 연속형 특성으로, 음소 정렬과 인식 정확도는 높지만 화자 특성 누수가 발생한다. MaskVCT는 이 두 경로를 각각 임베딩한 뒤 element‑wise addition으로 결합함으로써, 사용자는 inference 시 연속형·이산형 중 하나를 선택하거나 혼합해 사용할 수 있다. 실험에서는 연속형을 사용한 “All” 모드가 WER·CER를 낮추고 피치 추종성을 강화했으며, 이산형을 중심으로 한 “Spk” 모드는 화자·악센트 유사도를 크게 향상시켰다.

피치 조건은 로그 스케일의 sinusoidal embedding을 사용해 프레임당 50 Hz 해상도로 인코딩한다. 이는 외부 피치 추출기(Praat)와 무관하게 동작하며, 피치가 제공되지 않을 경우 모델은 언어‑only 조건만으로 음성을 생성한다. 화자 프롬프트는 3 초 길이의 참조 음성을 D A C 인코더에 통과시켜 얻은 토큰 시퀀스를 앞부분에 붙이는 방식으로 구현되며, 이는 VALL‑E와 유사한 in‑context learning 효과를 제공한다.

학습 단계에서는 마스크 타임스텝 u와 코드북 레이어 q를 확률적으로 샘플링하고, 코사인 스케줄에 따라 마스크 비율을 조절한다. 마스크된 토큰에 대해서만 교차 엔트로피 손실을 적용하고, SpecAugment와 PhaseAug를 추가해 노이즈와 위상 변동에 대한 강인성을 부여한다. 전체 모델은 16개의 Transformer encoder 레이어(각 16 heads, 차원 1024, FFN 4096)로 구성되며, 234 M 파라미터 규모다. 학습은 250k 스텝, 배치 168, 2 × A100 GPU에서 진행되었다.

실험에서는 Diff‑HierVC, FA‑Codec, MaskGCT‑S2A, FreeVC, GenVC 등 5개 최신 베이스라인과 비교하였다. LibriTTS‑R, MLS‑en, VCTK 등 다중 데이터셋(총 100 k 시간 이상)으로 사전 학습했으며, 테스트는 511쌍의 3 초 길이 음성에 대해 수행했다. 결과는 화자 유사도(S‑SIM)와 화자 MOS(SS‑MOS)에서 MaskVCT‑Spk가 0.890 이상의 점수를 기록, 기존 모델들을 모두 앞섰다. 동시에 WER와 CER는 All 모드에서 4.68%·2.22%로 경쟁력 있는 수준을 유지했다. 악센트 변환(L2‑ARCTIC) 실험에서도 피치가 노이즈에 민감함을 확인하고, Spk 모드만을 사용해 높은 화자·악센트 일치도를 달성했다.

전반적으로 MaskVCT는 “조건을 하나에 고정시키는” 기존 VC 모델과 달리, 다중 가이던스를 통해 사용자가 실시간으로 intelligibility와 화자 유사도, 피치 스타일을 트레이드오프할 수 있는 유연성을 제공한다. 이는 제로샷 상황에서 다양한 응용(예: 다국어 TTS, 음성 변조, 프라이버시 보호 등)에 바로 적용 가능함을 의미한다.

다중 가이드와 마스크 학습을 결합한 제로샷 보이스 컨버전 모델 MaskVCT

초록

상세 분석

댓글 및 학술 토론

의견 남기기