프로토타입 기반 해리성 발음 합성으로 제어 가능한 음성 변환

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ProtoDisent‑TTS는 사전 학습된 Index‑TTS에 병렬로 병렬 프로토타입 코드북과 이중 분류기(그라디언트 역전 레이어)를 결합해 화자 timbre와 병리학적 발음 패턴을 완전히 분리한다. 프로토타입 인덱스를 바꾸면 건강·해리성 음성을 양방향 변환할 수 있어, 화자 일관성을 유지한 데이터 증강과 해리성 음성 복원에 모두 활용 가능하다. TORGO 실험에서 합성 데이터가 실제 데이터와 비슷한 수준의 ASR 성능 향상을 보였으며, 화자 유사도도 크게 개선되었다.

상세 분석

ProtoDisent‑TTS는 기존의 해리성 음성 합성·복원 연구가 화자 정체성과 병리학적 발음 특성을 혼합해 제어가 어려운 문제를 해결하기 위해 두 가지 핵심 메커니즘을 도입한다. 첫 번째는 “병리학 프로토타입 코드북”이다. 코드북 P={p₀,…,pₙ}는 학습 가능한 임베딩으로, p₀은 건강한 발음, p₁~pₙ은 각각의 환자군(또는 심각도 레벨)을 대표한다. 텍스트와 화자 프롬프트 오디오를 입력받아 화자 인코더가 추출한 timbre 임베딩 s와 선택된 프로토타입 p_k를 요소별 합산(z=s+p_k)함으로써, 화자와 병리학이 동일 차원(D)에서 선형적으로 결합된다. 이 설계는 “프로토타입 인덱스”만 바꾸면 화자 정체성을 유지하면서 원하는 발음 패턴을 즉시 적용할 수 있게 만든다.

두 번째는 “이중 분류기와 GRL 기반의 역전 학습”이다. 결합 표현 z에 대해 병리학 여부를 판별하는 C_dys 분류기는 정상·병리 구분을 학습함으로써 p_k가 병리 정보를 주로 담도록 압력을 가한다. 반면, 화자 임베딩 s에 직접 연결된 C_adv는 동일한 병리 라벨을 예측하도록 훈련되지만, GRL(Gradient Reversal Layer)을 통해 역전된 그래디언트(−λ)를 전달한다. 이는 s가 병리학적 특징을 배제하고 순수히 화자 timbre만을 보존하도록 강제한다. 전체 손실 L_total = L_TTS + α·L_Cdys + β·L_Cadv에서 α,β를 1로 설정해 두 분류기의 손실이 TTS 손실과 동등하게 기여하도록 함으로써, 텍스트‑음성 정합성 손실과 병리‑화자 분리 손실이 균형을 이룬다.

또한, 저자들은 음성 변환 기반의 “크로스‑컨디션 timbre‑shift” 데이터를 생성한다. 해리성 음성을 무작위 건강 화자 timbre로, 건강 음성을 무작위 해리성 화자 timbre로 변환해 학습에 투입함으로써, 모델이 다양한 화자‑병리 조합을 경험하고 더욱 강인한 분리를 학습하도록 설계했다.

실험은 TORGO 데이터셋(8명의 해리성 환자, 7명의 정상 화자)에서 수행되었다. Whisper‑Medium/‑Large ASR 모델을 기반으로 세 가지 시나리오를 검증했다. (1) 실제 해리성 음성 대신 완전 합성 음성으로 학습했을 때, WER이 사전 학습 모델 대비 크게 감소했으며, 실제 데이터로 학습한 경우와의 격차가 2~~3% 수준으로 축소되었다. (2) 건강 화자 timbre에 다양한 병리 프로토타입을 적용해 만든 합성 데이터와 실제 데이터를 혼합했을 때, 합성 비율이 60~~100%까지 증가해도 ASR 성능이 꾸준히 개선돼 데이터 증강 효율성이 입증되었다. (3) 해리성 음성을 건강 음성으로 복원할 때, 화자 유사도(코사인 유사도)가 기존 비분리 모델 대비 0.15~~0.22에서 0.34~~0.37으로 크게 상승했다. 이는 GRL‑기반 역전 학습이 화자 정체성 보존에 실질적인 효과가 있음을 보여준다.

전체적으로 ProtoDisent‑TTS는 (1) 프로토타입 기반의 직관적·해석 가능한 제어 인터페이스, (2) 이중 분류기와 GRL을 통한 명시적 화자‑병리 분리, (3) 대규모 사전 학습 TTS 모델(Index‑TTS) 위에 LoRA 어댑터를 적용한 효율적 파인튜닝이라는 세 축을 결합해, 제한된 라벨 데이터와 높은 변이성을 가진 해리성 음성 분야에서 데이터 증강과 복원 양쪽 모두에 실용적인 솔루션을 제공한다.

프로토타입 기반 해리성 발음 합성으로 제어 가능한 음성 변환

초록

상세 분석

댓글 및 학술 토론

의견 남기기