보편적 음절 임베딩 Sylver 2.0 5Hz 초저속 토큰으로 다언어 음성 압축과 고품질 재생

보편적 음절 임베딩 Sylver 2.0 5Hz 초저속 토큰으로 다언어 음성 압축과 고품질 재생
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Sylver 2.0은 자기지도 학습 기반의 음절 단위 코딩 프레임워크로, 5 Hz 수준의 초저속 토큰화와 102개 언어에 대한 보편성을 동시에 달성한다. 내용 임베딩과 음향 임베딩을 결합하고 경계 탐지기를 도입해 고품질 재구성을 가능하게 하며, 72 M 파라미터 규모의 TTS와 저자원 ASR에서도 경쟁력 있는 성능을 보인다.

상세 분석

Sylver 2.0은 기존 고주파 토큰화 방식이 갖는 시간적 비효율성을 근본적으로 해소한다. 핵심 아이디어는 음성 신호를 자연적인 음절 경계에 맞춰 비균등하게 압축함으로써 평균 4.8 Hz, 최저 3.2 Hz까지 토큰 빈도를 낮추는 것이다. 이를 위해 다단계 자기지도 학습 파이프라인을 설계했으며, 첫 단계에서는 mHuBERT‑ 기반의 프레임‑와이즈 자기증류(frame‑wise self‑distillation)를 통해 언어에 무관한 기초 임베딩을 얻는다. 이후 자기‑세그멘테이션(distillation) 단계에서 무감독 세그멘테이션 알고리즘이 생성한 음절 경계를 교사 모델의 목표로 삼아, 학생 모델이 세그먼트 평균 임베딩을 예측하도록 학습한다. 이 과정에서 기존 Sylver가 사용하던 침묵 마스킹을 제거해 저음량 음절까지 보존함으로써 재구성 품질을 크게 향상시켰다.

경계 탐지기(boundary detector)는 기존의 유사도 기반 세그멘테이션이 갖는 O(N²) 연산 비용과 GPU 병렬화 한계를 극복한다. 트랜스포머 3층과 이진 로짓 출력층으로 구성된 탐지기는 교사 모델이 만든 경계 라벨을 학습하고, 추론 시 피크 검출을 통해 실시간으로 음절 경계를 예측한다. 이렇게 얻어진 경계 정보는 내용 임베딩(C)과 음향 임베딩(A)을 각각 64차원 연속 벡터로 압축하는 데 사용된다. 내용 임베딩은 언어적 정보를, 음향 임베딩은 화자 특성·톤색·감정 등 세밀한 음향 정보를 담는다. 두 임베딩을 결합하고 토큰 지속시간(d) 정보를 활용해 24 kHz 샘플링 레이트의 원본 파형을 복원한다. 복원 단계에서는 경량화된 Siuzdak vocoder를 적용해 실시간에 가까운 합성을 구현한다.

다국어 보편성은 mHuBERT‑ 기반 사전학습 모델을 147개 언어에 대해 미세조정하고, 102개 언어의 FLEURS‑R 데이터셋을 활용해 경계 탐지와 임베딩 학습을 수행함으로써 확보한다. 실험 결과, Sylver 2.0은 기존 Mimi(12.5 Hz), VibeVoice(7.5 Hz), CLEAR(7.7 Hz) 등에 비해 토큰 빈도가 현저히 낮으면서도, PESQ·STOI·MOS 등 객관·주관 지표에서 고주파 토큰화와 동등하거나 상회하는 재구성 품질을 기록한다. 특히 표현력이 풍부한 노래 목소리까지도 거의 손실 없이 복원한다.

다운스트림 적용 측면에서, 72 M 파라미터 규모의 제로샷 멀티스피커 TTS 모델을 Sylver 2.0 토큰 위에 구축했을 때, 최신 SOTA TTS와 비교해 intelligibility와 naturalness에서 격차가 거의 없으며, 파라미터·학습 비용이 크게 절감된다. 또한 저자원 ASR 실험에서는 기존 VQ‑VAE 기반 토큰보다 2–3% 절대 정확도 향상을 보이며, 토큰 길이가 짧아 학습 속도와 메모리 사용량이 크게 감소한다. 전체 학습은 24 GB GPU 하나에 모두 적재 가능하도록 설계돼, 연구·산업 현장에서 실용적인 접근성을 제공한다.

요약하면, Sylver 2.0은 음절 수준의 자연스러운 경계 탐지를 기반으로 초저속 연속 임베딩을 구현하고, 내용·음향 정보를 분리·보강함으로써 다언어·다양한 스타일의 고품질 음성 코딩을 가능하게 한다. 이는 음성 토큰화의 효율성, 보편성, 재구성 품질을 동시에 만족시키는 최초의 프레임워크라 할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기