의미기반 추론 가속을 위한 새로운 스펙터티브 디코딩
초록
SemanticSpec은 토큰 수준이 아닌 의미 수준에서 초안과 검증을 수행하는 스펙터티브 디코딩 프레임워크이다. 내부 은닉 상태를 활용해 의미 확률을 추정함으로써 의미 동등한 여러 토큰 시퀀스를 한 번에 받아들여, DeepSeekR1‑32B와 QwQ‑32B에서 각각 최대 2.7배와 2.1배의 속도 향상을 달성한다.
상세 분석
본 논문은 대형 언어 모델(LLM)의 추론 지연을 완화하기 위해 기존 토큰‑레벨 스펙터티브 디코딩이 갖는 의미 동등성 무시 문제를 지적한다. 특히, 체인‑오브‑생각(Chain‑of‑Thought)과 같이 긴 추론 과정을 요구하는 Large Reasoning Model(LRM)에서는 동일한 의미를 전달하는 다양한 토큰 조합이 존재함에도 불구하고, 기존 방법은 토큰 일치 여부만을 기준으로 초안을 거부한다. 이러한 비효율성을 해소하기 위해 제안된 SemanticSpec은 ‘의미 확률(semantic probability)’이라는 새로운 개념을 도입한다. 의미 확률은 특정 의미를 표현하는 모든 가능한 토큰 시퀀스의 총 발생 확률을 의미하며, 이를 직접 계산하기 위해서는 대규모 샘플링이 필요하지만 이는 스펙터티브 디코딩의 목적에 반한다. 논문은 이를 해결하기 위해 LLM 내부 은닉 상태가 의미 확률과 강한 상관관계를 가진다는 실험적 근거를 제시한다. 은닉 상태를 평균 풀링하고, 다층 정보를 활용해 의미 확률 예측기를 오프라인으로 학습시킴으로써, 추론 시에는 별도 샘플링 없이 은닉 상태만으로 의미 확률을 빠르게 추정한다. 알고리즘은 초안 모델(Mq)이 γ개의 후보 시퀀스를 생성하고, 목표 모델(Mp)이 이를 병렬 검증한 뒤, 각각의 의미 확률을 예측한다. 두 모델의 의미 확률이 충분히 일치하면 min(1, p_i·q_i) 확률로 해당 시퀀스를 바로 받아들인다; 그렇지 않을 경우 목표 모델이 직접 토큰을 재생성한다. 이 과정은 의미 수준에서의 ‘동의’를 기반으로 하여, 의미적으로 동일하지만 토큰 형태가 다른 초안을 효과적으로 수용한다. 실험에서는 DeepSeekR1‑32B와 QwQ‑32B 두 모델을 대상으로 MATH‑500, GPQA‑D 등 네 가지 벤치마크에서 기존 토큰‑레벨 및 최근 시퀀스‑레벨 스펙터티브 디코딩(예: SpecReason, Speculative Thinking)과 비교하였다. 결과는 평균 2.7×(DeepSeekR1) 및 2.1×(QwQ) 속도 향상을 보여주며, 토큰당 처리량(TPS) 역시 1.67×~2.66× 증가한다. 또한, 정확도 측면에서도 기존 방법을 능가하거나 동등한 수준을 유지한다. 한계점으로는 의미 확률 예측기의 품질이 은닉 상태의 표현력에 크게 의존한다는 점과, 다양한 도메인에 대한 일반화가 추가적인 오프라인 학습을 필요로 할 수 있다는 점을 들 수 있다. 향후 연구에서는 멀티모달 은닉 상태 활용, 동적 γ 조절, 그리고 의미 클러스터링을 위한 보다 정교한 엔트레인먼트 기반 방법을 탐색할 예정이다.
댓글 및 학술 토론
Loading comments...
의견 남기기