핀란드어 발음 편집을 위한 PPG2Speech 확산 기반 무텍스트 음성 변환
초록
PPG2Speech는 Phonetic Posteriorgrams(PPG)를 입력으로 받아 확산 기반 흐름 매칭 디코더와 Classifier‑free Guidance, Sway Sampling을 결합해 멀티스피커 멜‑스펙트로그램을 생성한다. 텍스트 정렬 없이 단일 음소 편집이 가능하며, 새롭게 제안한 Phonetic Aligned Consistency(PAC) 지표로 편집 효과를 정량화한다. 핀란드어 60시간 데이터로 실험한 결과, 자연스러움과 화자 유사도에서 기존 TTS 기반 편집에 근접하거나 우수한 성능을 보였다.
상세 분석
본 논문은 저자들이 제시한 PPG2Speech 모델을 중심으로, 저자들이 선택한 기술적 요소들을 심층적으로 검토한다. 첫 번째 핵심은 입력으로 Phonetic Posteriorgrams(PPG)를 사용한다는 점이다. PPG는 시간에 따라 변하는 음소 확률 분포를 제공하므로, 텍스트‑음성 정렬이 필요 없는 부드러운 정렬 정보를 제공한다. 이는 기존 TTS 기반 편집 모델이 요구하는 강제 정렬 단계와 대비되어, 편집 시 자연스러운 경계와 prosody 유지에 유리하다. 두 번째는 흐름 매칭(Flow Matching, FM) 기반 확산 모델을 채택한 점이다. FM은 OTV‑CFM 손실을 통해 선형 보간 흐름을 학습함으로써 전통적인 확산 모델보다 학습·샘플링 효율이 높다. 여기서 저자들은 Matcha‑TTS의 1‑D U‑Net 디코더를 기반으로 하면서, Classifier‑free Guidance(CFG)를 도입해 조건부와 무조건부 스코어를 혼합한다. CFG의 가중치 w=3을 사용함으로써 샘플 품질을 크게 향상시키면서도 다양성을 일정 수준 유지한다. 세 번째로 Sway Sampling을 적용한다. s=−1 설정으로 초기 단계에서는 작은 스텝을, 후반부에서는 큰 스텝을 사용해 노이즈에서 멜‑스펙트로그램으로 변환하는 과정에서 고주파 잡음을 억제하고 전반적인 음질을 개선한다. 모델 구조는 PPG 인코더(프리넷 → Conformer → 업샘플링 → Transformer)와 흐름 매칭 디코더(외부 화자 임베딩, 피치 임베딩, V/UV 플래그 결합)로 구성된다. 화자 임베딩은 SimAMResNet34 기반 사전 학습 모델을 사용하고, 피치는 PENN으로 추출 후 256‑bin 양자화한다. 실험에서는 핀란드어 데이터셋(Perso Synteesi, Finsyn) 총 61.8시간을 48명의 화자로 학습·검증·테스트하고, 4명의 화자를 unseen 셋으로 별도 평가한다. 객관적 평가지표로는 화자 유사도(SECS), 문자 오류율(CER), 멜‑Cepstral Distortion(MCD), 피치 MAE, 그리고 새롭게 제안한 Phonetic Aligned Consistency(PAC)를 사용한다. 결과는 PPG2Speech‑CFG가 unseen 화자에 대해 SECS 0.86, MCD 3.69, Pitch MAE 7.17 ¢를 기록해 CFG가 품질 향상에 크게 기여함을 보여준다. 다만, 기본 PPG2Speech 모델은 SECS와 CER에서 Matcha‑TTS에 비해 다소 뒤처지며, 특히 편집 정확도(PAC)에서도 0.709라는 점수는 아직 개선 여지가 있음을 시사한다. 종합적으로, 본 연구는 텍스트‑프리 음성 편집을 위한 실용적인 파이프라인을 제시하고, PPG 기반 정렬과 확산 모델의 결합이 저자원 언어에서 유의미한 성과를 낼 수 있음을 입증한다. 향후 연구에서는 PPG 추출 정확도 향상, 더 정교한 CFG 파라미터 튜닝, 그리고 다국어 확장 등을 통해 편집 정밀도와 자연스러움을 더욱 고도화할 수 있을 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기