텍스트와 정렬된 음성 토큰화 TASTE: 말하기 언어 모델을 위한 새로운 접근
초록
TASTE는 음성 토큰을 텍스트 전사와 길이와 의미가 일치하도록 정렬하는 토큰화·임베딩 방법이다. 어텐션 기반 집계와 잔차 벡터 양자화를 이용해 음성 재구성을 목표로 학습하며, 파라링구istic 정보만을 담아 토큰 길이를 크게 줄인다. 이렇게 만든 토큰을 기존 텍스트 LLM에 Low‑Rank Adaptation만 적용해 간단히 공동 언어 모델링을 수행한다. 실험 결과, 기존 SLM 대비 음성 연속성·음질·주관적 평가에서 우수함을 보이며, SALMON·StoryCloze와 같은 벤치마크에서도 경쟁력 있는 성능을 기록한다.
상세 분석
본 논문은 현재 음성‑텍스트 공동 모델링에서 가장 큰 병목인 “모달리티 길이 불일치” 문제를 근본적으로 해결하고자 한다. 기존 방식은 음성 토큰을 고정된 스트라이드로 추출하거나, 텍스트와 음성 토큰을 교차 삽입·패딩하는 등 복잡한 후처리 과정을 필요로 한다. TASTE는 이러한 절차를 전혀 거치지 않고, 입력 음성 u와 그에 대응하는 텍스트 전사 v를 동시에 활용한다. 핵심은 Whisper 기반의 사전학습된 ASR 인코더를 고정하고, 마지막 레이어 h⁽ᴸ⁾를 키(key)로, 중간 레이어 h⁽ˡ⁾를 값(value)으로 사용해 텍스트 v를 쿼리(query)로 하는 다중 헤드 어텐션을 수행한다. 이 어텐션은 텍스트 토큰 수 N에 맞춰 길이가 압축된 음성 표현 z∈ℝᴺˣᵈ_z를 생성한다. 이어서 잔차 벡터 양자화(RVQ) 𝑅단계를 적용해 각 토큰을 코드북 인덱스 q⁽ʳ⁾로 변환하고, 모든 레이어의 양자화 잔차를 합산해 최종 임베딩 \hat{z}를 만든다.
재구성 디코더는 두 부분으로 구성된다. 첫 번째는 텍스트 v와 정렬된 임베딩 \hat{z}를 입력받아 음성 유닛 y를 예측하는 Transformer 기반 UnitDecoder이며, 두 번째는 유닛 y를 실제 파형으로 변환하는 unit‑to‑speech vocoder이다. 학습 목표는 (1) 유닛 예측에 대한 교차 엔트로피 손실 L_ce와 (2) 양자화 손실 L_rvq를 동시에 최소화하는 것이다. 이 과정에서 텍스트‑음성 어텐션이 제공하는 “소프트 워드 정렬 지도”를 활용해, 음성 토큰이 텍스트 의미를 중복해서 인코딩하지 않도록 설계했다. 결과적으로 토큰당 비트레이트는 약 150 bps 수준으로, 기존 수천 bps 수준의 토큰화 방식보다 10배 이상 효율적이다.
SLM 구축 단계에서는 TASTE 토큰을 기존 대규모 텍스트 LLM에 Low‑Rank Adaptation(LORA)만 적용해 간단히 파인튜닝한다. 이렇게 하면 텍스트와 음성 토큰이 1:1 대응하므로, 텍스트 토큰을 생성하면서 동시에 정렬된 음성 토큰을 출력할 수 있다. 실험에서는 3초 길이의 프롬프트 음성을 입력해 연속 음성을 생성했으며, GPT‑4o를 이용한 의미 평가, UTMOS를 이용한 음질 평가, 그리고 인간 청취 테스트를 모두 기존 7B 규모 사전학습 SLM보다 높은 점수를 기록했다. 또한 SALMON·StoryCloze와 같은 텍스트‑음성 이해·생성 벤치마크에서도 경쟁력 있는 결과를 보였다.
핵심 기여는 (1) 텍스트와 길이·내용이 정렬된 새로운 음성 토큰화 방식, (2) 어텐션 기반 집계와 RVQ를 결합한 효율적인 임베딩 설계, (3) 복잡한 교차‑모달 정렬 없이도 기존 텍스트 LLM에 바로 적용 가능한 간단한 파인튜닝 절차이다. 이러한 설계는 향후 멀티모달 LLM이 음성을 자연스럽게 입력·출력하도록 하는 기반을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기