액센트 중립 제로샷 TTS를 위한 활성화 스티어링

액센트 중립 제로샷 TTS를 위한 활성화 스티어링
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전 학습된 제로샷 텍스트‑투‑스피치 모델의 내부 활성화를 조작해, 참조 화자의 억양은 유지하면서 억양(액센트)만 중립화하는 사후 처리 기법을 제안한다. 레이어별 활성화 차이를 이용해 “스티어링 벡터”를 오프라인으로 추출하고, 추론 시 해당 벡터를 적용해 액센트가 제거된 음성을 생성한다. 실험 결과, 제안 방법은 억양을 크게 감소시키면서 화자 timbre 보존을 어느 정도 유지하고, 보지 못한 화자에도 일반화됨을 보였다.

상세 분석

본 연구는 최근 급부상한 대규모 LLM 기반 제로샷 TTS 모델(Qwen3‑TTS)의 내부 표현이 다중 음성 특성을 동시에 인코딩한다는 점에 착안한다. 저자들은 “액센트 스티어링”이라는 개념을 도입해, 특정 레이어의 활성화 평균값 차이를 선형 방향(스티어링 벡터)으로 정의하고, 이를 역방향으로 적용함으로써 액센트 정보를 억제한다. 핵심 아이디어는 액센트와 화자 timbre가 서로 얽혀 있지만, 고차원 활성화 공간에서는 이들 특성이 근사적으로 선형적으로 분리될 수 있다는 가정이다.

스티어링 벡터 추출 단계에서는 ARCTIC(미국식 중립 억양)과 L2‑ARCTIC(중국어 L1 화자의 영어 억양) 데이터를 이용해, 동일 텍스트에 대해 중립·액센트 두 조건으로 TTS를 실행한다. 각 레이어별 토큰 활성화를 평균한 뒤, 액센트 조건과 중립 조건의 차이를 벡터 v_l 로 정의한다. 여기서 중요한 점은 프롬프트(참조 음성·텍스트) 토큰을 제외하고, 오직 생성 토큰에 대한 활성화만을 사용한다는 것이다. 이는 스티어링이 최종 음성 생성 과정에만 영향을 미치게 함으로써, 원본 화자 정보가 과도하게 손실되는 것을 방지한다.

또한, 화자와 액센트가 완전히 결합된 상황에서 스티어링 벡터가 화자 정보를 포함할 위험을 완화하기 위해, 추출 과정에서 음성 파형에 무작위 주파수 스케일링·F0 변조·이퀄라이저 적용이라는 세 가지 데이터 증강을 수행한다. 이러한 변형은 화자 timbre를 인위적으로 변동시키면서도 억양 자체는 유지하도록 설계돼, 스티어링 벡터가 액센트 특성에 더 집중하도록 만든다.

추론 단계에서는 각 디코딩 타임스텝 t에서 레이어 l의 활성화 a_{t}^{l}에 다음과 같이 스티어링을 적용한다: a_{t}^{l} ← (a_{t}^{l} – α·v_l)·‖a_{t}^{l}‖₂ / ‖a_{t}^{l} – α·v_l‖₂. 여기서 α는 스티어링 강도 하이퍼파라미터이며, 정규화는 원래 활성화의 크기를 유지해 화자 timbre 손실을 최소화한다. 저자들은 단일 레이어 스티어링(예: 레이어 10 또는 15)만을 실험했으며, 다중 레이어 조합도 가능함을 시사한다.

실험은 두 규모의 Qwen3‑TTS(0.6B, 1.7B)와 두 데이터셋(L2‑ARCTIC, speechocean762)에서 수행됐다. 평가 지표는 Inference Success Rate(ISR), Accent Match Rate(AMR‑CN/US), 화자 유사도(Spk Sim), UTMOS, 그리고 WER이다. 결과는 스티어링 적용 시 AMR‑CN이 크게 감소하고 AMR‑US가 상승해 액센트 중립화가 성공했음을 보여준다. 동시에 Spk Sim이 약간 감소하지만, 1.7B 모델에서는 0.84→0.76 정도로 비교적 작은 손실에 그친다. UTMOS는 유지되거나 약간 향상되었으며, WER은 특히 speechocean762에서 56%→32%로 크게 개선돼 억양 감소가 인식 정확도 향상에 기여함을 확인했다.

또한 레이어별 스티어링 효과 분석에서는 중간 레이어(10~15)에서 가장 큰 액센트 감소와 적당한 화자 보존이 관찰되었다. 스티어링 강도 α를 2.0으로 늘리면 액센트 억제는 강화되지만 ISR 감소와 Spk Sim 추가 손실이 발생한다는 트레이드오프가 존재한다. 데이터 증강 유무 비교에서도, 증강을 적용했을 때 액센트 중립화 효과가 약간 감소하지만 화자 보존이 더 잘 이루어지는 경향을 보였다.

전체적으로 이 논문은 사전 재학습 없이 기존 제로샷 TTS 모델에 후처리 형태로 적용 가능한, 간단하면서도 효과적인 액센트 중립화 방법을 제시한다. 활성화 공간에서 선형 방향을 이용한 스티어링이 음성 합성에서도 유용함을 입증했으며, 향후 다중 특성(감정, 억양, 화자) 동시 제어를 위한 확장 가능성을 시사한다.


댓글 및 학술 토론

Loading comments...

의견 남기기