간단한 분리형 음성 토크나이저 Kanade
초록
Kanade는 단일 레이어 구조와 정보 병목을 이용해 음성 신호에서 언어적 내용(음소·운율)과 비언어적 요소(화자·환경)를 효과적으로 분리한다. SSL 특징을 입력으로 사용하고 코드북‑프리 양자화를 적용해 12.5 Hz·25 Hz 토큰을 생성하며, 화자 변환·음성 인식·TTS 등 다양한 downstream 작업에서 기존 SSL 토큰과 neural codec을 능가하는 성능을 보인다.
상세 분석
본 논문은 음성 토크나이저 설계에서 “언어적 정보와 비언어적 정보를 명확히 구분”하는 것이 핵심이라는 가설을 검증한다. 이를 위해 저자는 두 개의 분기(branch)를 도입한다. 첫 번째인 콘텐츠 브랜치는 깊은 레이어의 SSL 특징(음성 내용에 민감한 레이어 6, 9)을 평균·정규화 후 Transformer 인코더와 FSQ(Finite Scalar Quantization) 양자화를 거쳐 12.5 Hz 혹은 25 Hz의 이산 토큰 스트림을 만든다. 두 번째인 글로벌 브랜치는 얕은 레이어(1, 2)의 SSL 특징을 ConvNeXt‑ 기반 인코더에 통과시켜 전체 발화에 대한 하나의 연속 임베딩을 추출한다. 이 임베딩은 화자 특성, 녹음 환경 등 시간에 따라 변하지 않는 정보를 담으며, 디코더 단계에서 AdaLN‑Zero를 통해 멜 스펙트로그램 생성에 조건으로 사용된다.
학습 목표는 두 가지 손실을 동시에 최소화하는 것이다. 첫째, 콘텐츠 토큰을 복원한 뒤 SSL 특징과 비교하는 feature reconstruction loss는 음소 정보를 보존한다. 둘째, 멜 스펙트로그램 재구성 손실은 운율·억양 등 비정형적인 음향 정보를 유지하도록 유도한다. 정보 병목(제한된 비트레이트)으로 인해 콘텐츠 브랜치는 비언어적 정보를 버리고, 글로벌 브랜치가 이를 흡수하도록 설계되었으며, 이는 별도의 adversarial이나 contrastive loss 없이도 자연스럽게 분리를 이끌어낸다.
양자화 단계에서 전통적인 VQ‑VAE 코드북을 사용하면 초기화 민감도와 코드북 붕괴 문제가 발생하지만, FSQ는 코드북을 명시적으로 유지하지 않아 이러한 위험을 회피한다. 실험에서는 FSQ가 코드북‑기반 방법보다 토큰 품질과 재구성 정확도에서 우수함을 입증한다.
성능 평가에서는 화자 변환(vocoder‑free voice conversion)과 화자 구분(speaker discrimination) 과제에서 기존 disentangled codec(F‑Codec, BiCodec)보다 높은 점수를 기록했으며, 자동 음성 인식(ASR) 및 텍스트‑투‑스피치(TTS) 파이프라인에서도 lexical availability와 자연스러운 prosody를 동시에 달성했다. 특히, 600시간의 데이터와 120 M 파라미터만으로도 SOTA 수준의 결과를 얻은 점은 데이터 효율성 측면에서 큰 의미를 가진다.
결론적으로 Kanade는 “단일 레이어, 코드북‑프리, SSL 기반 입력”이라는 간결한 설계에도 불구하고, 언어적·비언어적 정보를 효과적으로 분리하고, 낮은 토큰 레이트와 높은 재구성 품질을 동시에 만족시키는 실용적인 음성 토크나이저로 자리매김한다.
댓글 및 학술 토론
Loading comments...
의견 남기기