동시 사고와 말하기를 위한 스티치: 청각 언어 모델의 청크 기반 추론
초록
STITCH는 음성 입력을 받아 말하는 SLM에 내부의 무음 사고 과정을 도입한다. 음성 청크가 재생되는 동안 남는 연산 시간을 활용해 생각(Chain‑of‑Thought) 토큰을 부분적으로 생성함으로써, 응답 지연 없이 동시에 사고와 말을 진행한다. 수학 QA에서 15% 향상된 정확도를 보이며, 비추론 작업에서는 기존 모델과 동등한 성능을 유지한다.
상세 분석
본 논문은 기존 SLM이 텍스트‑음성 토큰을 순차적으로 생성하고, 사고 과정을 전혀 포함하지 않는 한계를 지적한다. 인간은 말하면서도 내부적으로 복잡한 추론을 수행하므로, 이러한 ‘무음 사고’를 모델에 통합하는 것이 필요하다. 가장 단순한 접근법은 전체 CoT를 먼저 생성하고 그 뒤에 음성 토큰을 만드는 TBS(Thinking Before Speaking) 방식이다. 그러나 CoT 길이가 가변적이기 때문에 응답 지연이 크게 늘어나 실시간 대화에 부적합하다.
STITCH는 이 문제를 해결하기 위해 “청크 기반 교대 생성” 전략을 제안한다. 구체적으로, 모델은 고정 길이 N개의 사고 토큰(reasoning chunk), N개의 텍스트 토큰(text chunk), N개의 음성 토큰(speech chunk)을 순차적으로 교대로 생성한다. 음성 청크가 디코더를 통해 wav 형태로 합성되고 재생되는 동안, 남은 시간(t_chunk − t_token) 동안 사고 토큰을 추가로 생성한다. 실험 환경(A100‑80G, 80 tokens/s)에서는 N = 13(텍스트) + 26(음성) = 39 토큰을 생성하는 데 약 0.5 초가 소요되고, 2 초 길이의 음성 청크가 재생되는 동안 최대 121개의 사고 토큰을 추가 생성할 수 있다.
두 가지 변형이 제시된다. STITCH‑R은 ‘Reasoning First’ 방식으로, 먼저 사고 청크를 생성한 뒤 텍스트·음성 청크를 만든다. 이는 TBS 대비 지연을 크게 줄이면서도 사고 정보를 충분히 제공한다. 반면 STITCH‑S는 ‘Speaking First’ 방식으로, 처음에 텍스트·음성 청크를 바로 생성하고 이후 사고 청크를 삽입한다. 이 설계는 최초 응답 지연을 완전히 없애지만, 초기 단계에서 사고 정보가 부족할 수 있다는 트레이드오프가 있다.
학습 데이터는 기존 CoT 데이터에 특수 토큰(
댓글 및 학술 토론
Loading comments...
의견 남기기