대규모 변환기 기반 오디오 토크나이저 MOSS

대규모 변환기 기반 오디오 토크나이저 MOSS
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MOSS‑Audio‑Tokenizer는 순수 트랜스포머(CAT) 구조로 엔코더·양자화·디코더를 전부 엔드‑투‑엔드 학습해 1.6 B 파라미터 규모와 3 백만 시간의 일반 오디오 데이터로 사전학습한 토크나이저이다. 24 kHz 입력을 12.5 Hz 토큰 프레임으로 압축하고, 0.125 kbps~4 kbps 가변 비트레이트를 지원한다. 기존 CNN‑하이브리드 코덱 대비 모든 도메인(음성·음악·환경음)에서 재구성 품질이 우수하며, 토큰을 이용한 순수 자동회귀 TTS와 ASR에서도 경쟁력을 보인다.

상세 분석

본 논문은 오디오 토크나이저를 대규모 언어 모델에 적용하기 위한 “통합 인터페이스”라는 관점에서 설계 원칙을 재정의한다. 첫 번째 원칙은 통합된 오디오 표현이다. 음성, 음악, 환경음 등 서로 다른 스펙트럼 특성을 가진 데이터를 하나의 토큰 시퀀스로 압축하면서도 미세한 음향 디테일과 의미적 구조를 동시에 보존해야 한다. 두 번째는 단순성과 확장성이다. 기존 코덱은 CNN 기반 전처리, 멀티‑스테이지 학습, 외부 사전학습 인코더 등에 의존해 설계 복잡도가 높고, 파라미터·데이터·컴퓨팅 규모를 동시에 확대하기 어려웠다. 저자들은 이러한 한계를 극복하기 위해 완전한 트랜스포머 스택, 즉 인코더·디코더 모두를 Causal Transformer 블록으로 구성한다. 이는 인코더와 디코더가 동일한 구조를 공유함으로써 구현 복잡성을 크게 낮추고, 스트리밍(인코딩·디코딩 모두 causal)과 저프레임 레이트(12.5 Hz)라는 두 가지 실용적 요구를 동시에 만족한다.

양자화 단계에서는 Residual Vector Quantization (RVQ) 를 32 레이어로 쌓아 가변 비트레이트를 자연스럽게 구현한다. 학습 시 quantizer dropout을 적용해 일부 레이어를 임의로 비활성화함으로써, 모델이 다양한 비트레이트 상황에 강인하게 적응하도록 만든 점이 눈에 띈다. 손실 함수는 재구성 손실(다중 스케일 멜 스펙트로그램 L1), 커밋·코드북 손실, 그리고 멀티 디스크리미네이터를 이용한 adversarial 손실을 가중합한 복합 목표이며, 여기에는 음성‑텍스트 정렬을 위한 0.5 B 파라미터 LLM 기반의 오디오‑투‑텍스트 보조 태스크도 포함된다. 이렇게 함으로써 토큰이 단순 압축 코드가 아니라 의미‑풍부한 표현으로 진화한다.

스케일링 실험에서는 파라미터 수와 배치 크기를 단계적으로 늘리면서 재구성 품질이 꾸준히 향상되는 선형‑근접 스케일링 특성을 확인한다. 1.6 B 파라미터 모델은 3 백만 시간 데이터로 사전학습돼, 기존 코덱(EnCodec, Hifi‑Codec 등) 대비 동일 비트레이트에서 평균 1.2 dB 이상의 PESQ·STOI 개선을 기록한다. 또한, 순수 자동회귀 TTS를 구현했는데, 이는 CA​T‑TTS 라는 별도 모델이 텍스트와 스피커 프롬프트만으로 RVQ 토큰을 직접 예측한다. 여기서 제안한 Progressive Sequence Dropout은 훈련 중에 고레벨 RVQ 레이어를 점진적으로 마스킹함으로써, 하나의 모델이 다양한 비트레이트(0.1254 kbps) 구간을 모두 커버하도록 만든 혁신적인 전략이다. 실험 결과, 이 AR‑TTS는 비자동회귀 및 캐스케이드 방식의 최신 TTS와 비교해 MOS가 0.150.3점 상승했으며, 특히 저비트레이트(≤0.5 kbps)에서 음질 저하가 최소화되었다.

ASR 측면에서도, MOSS‑Audio‑Tokenizer의 토큰을 그대로 입력으로 사용한 LLM 기반 음성 인식 모델이 별도 프론트엔드 인코더 없이도 LibriSpeech test‑clean에서 4.9% WER, test‑other에서 12.3% WER를 달성, 기존 대형 음성 인식 파이프라인과 경쟁한다. 이는 토큰이 충분히 의미‑풍부하고, 시간적 연속성을 유지한다는 것을 의미한다.

전체적으로 본 연구는 “Transformer‑only, causal, end‑to‑end” 라는 설계 철학이 오디오 토크나이저의 품질·스케일·다양한 다운스트림 태스크 적용 가능성을 동시에 끌어올릴 수 있음을 입증한다. 향후 멀티모달 대형 모델에 직접 삽입되는 “오디오 어휘” 역할을 수행할 기반을 제공한다는 점에서 큰 의미가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기