시간변화 음색으로 실시간 음성 변환과 익명화

시간변화 음색으로 실시간 음성 변환과 익명화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

TVTSyn은 화자 정체성을 정적 임베딩이 아니라 프레임 수준에서 변하는 시간‑가변 음색(TVT)으로 표현한다. 전역 음색 메모리와 스케일러블 어텐션, 게이트 기반 변동 제어, 구면 보간을 결합해 스트리밍 환경에서도 80 ms 미만의 지연으로 자연스러운 음성 변환 및 화자 익명화를 구현한다.

상세 분석

본 논문은 실시간 음성 변환(VC)과 화자 익명화(SA)에서 기존 시스템이 겪는 “정적‑동적 불일치” 문제를 근본적으로 해결한다. 기존 모델은 프레임 단위의 콘텐츠 표현에 전역 화자 임베딩을 단순히 연결하거나 FiLM·AdaIN 형태로 조정하지만, 이는 시간 해상도가 서로 다른 두 신호를 강제로 결합함으로써 음색이 과도하게 평탄화되고 감정·강세·억양 변화가 손실되는 원인이 된다. TVTSyn은 이러한 한계를 넘어, 화자 정보를 시간에 따라 변하도록 설계된 TVT(Time‑Varying Timbre) 표현을 도입한다.

핵심 구성요소는 Global Timbre Memory(GTM)이다. 전역 화자 임베딩 g(노이즈‑강건 X‑벡터와 ECAPA‑TDNN을 결합) 를 MLP와 사전 학습된 프로토타입 키·값(k_prior, v_prior) 으로 확장해 K개의 “음색 면(facet)”을 만든다. 각 프레임의 콘텐츠 임베딩 c_t 는 이 K개의 키에 어텐션을 수행해 가중합 v_t 를 얻으며, 이는 현재 음소·프로소디와 가장 잘 맞는 음색 부분을 동적으로 선택한다.

게이트 네트워크는 스칼라 α_t∈


댓글 및 학술 토론

Loading comments...

의견 남기기