연속 오디오 언어 모델 고품질 저비용 오디오 생성

연속 오디오 언어 모델 고품질 저비용 오디오 생성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

연속 오디오 언어 모델(CALM)은 이산 토큰 대신 VAE 잠재 공간을 직접 예측하는 트랜스포머 기반 구조와 일관성 모델을 결합해, 손실 압축 없이 고품질 음성·음악을 저연산 비용으로 생성한다. 주요 기법으로는 장기 컨텍스트에 노이즈 주입, 짧은 컨텍스트 트랜스포머, 연속 일관성 샘플링, 온도 조절 히스테리시스, 라벨프리 가이드 및 라벨프리 디스틸레이션이 있다. 실험 결과, 기존 이산 토큰 기반 모델보다 품질·효율 모두에서 우수함을 보였으며, 100M 파라미터의 Pocket TTS를 공개해 CPU 실시간 구동을 가능하게 했다.

상세 분석

CALM은 기존 오디오 언어 모델이 겪는 “품질‑연산 트레이드오프”를 근본적으로 해소한다. 전통적인 오디오 코덱은 손실 양자화를 통해 토큰을 생성하고, 품질을 높이려면 토큰 깊이를 늘려야 하는데, 이는 시퀀스 길이와 어텐션 복잡도를 급격히 증가시킨다. CALM은 이러한 양자화 단계를 건너뛰고, 사전 학습된 VAE의 연속 잠재 벡터를 직접 모델링한다. 핵심은 두 단계 구조인데, 첫 번째는 대규모 인과적 트랜스포머가 이전 잠재 시퀀스( x₁…x_{s‑1} )를 인코딩해 컨텍스트 임베딩 z_s 를 만든다. 두 번째는 이 z_s 와 최근 몇 프레임을 요약한 짧은‑컨텍스트 트랜스포머 z_s^{short} 를 입력으로 하는 MLP 기반 일관성 모델이다. 일관성 모델은 연속 확산(또는 흐름 매칭) 과정을 하나의 스텝으로 근사해, 전통적인 수백 스텝 디퓨전보다 10배 이상 빠른 샘플링을 구현한다.

학습 안정성을 위해 장기 컨텍스트에 가우시안 노이즈를 주입하고, 짧은‑컨텍스트 트랜스포머를 도입해 지역 정보를 보완한다. 이는 MAR에서 관찰된 “오류 누적” 문제를 크게 완화한다. 또한, 일관성 모델은 온도 파라미터가 직접 정의되지 않으므로, 저자들은 t 에 대한 가중치를 조정해 온도 효과를 근사하는 휴리스틱을 제시한다. 라벨프리 가이던스는 z_s 에 조건을 추가해 텍스트‑투‑오디오, 텍스트‑투‑뮤직 등 조건부 생성 성능을 끌어올린다. 마지막으로, 라벨프리 가이던스에 사용된 CFG 계수를 학생 트랜스포머에 디스틸레이션함으로써 백본 파라미터를 2배까지 절감하고, 실시간 CPU 구동이 가능한 Pocket TTS(100M 파라미터)를 구현했다.

실험에서는 음성 연속, 음악 연속, 텍스트‑투‑스피치, 텍스트‑투‑뮤직 네 가지 태스크를 대상으로, 기존 최고 수준의 이산 토큰 기반 모델(AudioLM, MusicGen 등)과 비교했다. CALM은 동일한 연산 예산에서 평균 1.21.5 dB 높은 PESQ/Si‑SDR을 기록했으며, 샘플링 속도는 1220배 가속되었다. 특히 음악 생성에서는 8 kHz 이하의 비트레이트에서도 원본에 근접한 음질을 유지했다.

한계점으로는 VAE 자체의 재구성 손실이 여전히 존재하고, 매우 긴 시퀀스(수십 초 이상)에서는 트랜스포머 어텐션 메모리 부담이 남는다. 또한, 일관성 모델의 온도 근사 방식이 아직 경험적이며, 이론적 근거가 부족하다. 향후 연구는 효율적인 선형 어텐션, 멀티스케일 VAE, 그리고 온도 제어를 정식화한 일관성 모델 설계가 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기