TriSpec 경량 프록시 검증을 통한 삼중 추론 가속
초록
**
TriSpec은 기존의 투기적 디코딩(SD) 구조에 경량 프록시 검증기를 추가해 검증 비용을 크게 낮춘 삼중 모델 프레임워크이다. 작은 프록시 모델이 초기에 높은 신뢰도를 보이는 토큰을 자체 검증하고, 불확실한 경우에만 대형 타깃 모델을 호출한다. 이를 통해 검증 단계의 평균 지연을 감소시키고, 토큰당 타깃 모델 호출을 50 % 이상 줄이면서도 정확도 손실을 1 % 이하로 억제한다. 실험 결과 Qwen3·DeepSeek‑R1 계열 모델에서 기존 SD 대비 최대 35 %의 속도 향상을 달성했다.
**
상세 분석
**
TriSpec은 “드래프터‑프록시‑타깃”이라는 삼중 구조를 도입함으로써 기존 투기적 디코딩의 병목인 검증 단계(t_v)를 근본적으로 재설계한다. 먼저, 동일 모델 패밀리 내에서 파라미터가 작은 서브 모델을 프록시 검증기로 선택한다. 논문은 ShareGPT 데이터셋을 이용해 토큰 수준 정합성을 측정했으며, 1.7 B 프록시가 32 B 타깃과 82 %의 정확히 일치하는 토큰을 생성하고, 전체 토큰 중 6 %만이 ‘수용 불가’ 수준으로 판단된다는 결과를 제시한다. 이는 프록시가 타깃과 높은 확률 분포 정렬(alignment)을 보이며, 대부분의 경우 타깃을 대체해도 출력 품질에 큰 영향을 주지 않음을 의미한다.
프록시 검증의 신뢰성을 판단하기 위해 논문은 “마진 기반 기준”을 도입한다. 프록시의 top‑1과 top‑2 확률 차이가 사전 정의된 임계값(λ) 이상이면 해당 토큰을 ‘신뢰 가능’으로 간주하고, 그렇지 않은 경우에는 타깃 모델로 에스컬레이션한다. 실험에서 마진이 0.5 이상인 경우 정확도가 크게 떨어지지 않으며, 마진이 낮은 토큰이 오류 발생률이 높은 구간에 집중되는 것을 확인했다. 이와 같은 명확한 구분자는 프록시가 언제 타깃을 대신할 수 있는지를 자동으로 결정하게 해, 라우팅 로직을 단순화한다.
TriSpec의 라우팅 메커니즘은 두 단계로 구성된다. ① 프록시가 자체 검증을 수행하고, 연속적인 ‘신뢰 가능’ 토큰 길이 τ_m을 계산한다. ② 프록시가 실제로 초안 토큰을 받아들인 길이 τ_a와 비교한다. τ_a < τ_m이면 프록시가 첫 거부 지점까지 신뢰 가능하다고 판단해, 타깃 모델 호출 없이 프록시가 제시한 다음 토큰을 그대로 사용한다. 반대로 τ_a ≥ τ_m이면 프록시 검증이 불확실하다고 판단하고, 해당 구간을 타깃 모델에 넘겨 정확한 검증을 수행한다. 이 과정은 토큰 수준에서 동적으로 전환되므로, 전체 디코딩 흐름에서 타깃 모델 호출 횟수를 평균 50 % 이상 감소시킨다.
성능 평가에서는 Qwen3‑32B와 DeepSeek‑R1‑Distill‑Qwen/LLaMA 계열을 대상으로 GSM8K, Math500, HumanEval, MBPP 등 5개의 추론·코드 생성 벤치마크를 사용했다. 기존 EA‑GLE‑3 기반 SD는 평균 2.8× 정도의 가속을 보였으나, TriSpec을 결합한 EA‑GLE‑3+TriSpec은 4.2×까지 속도가 상승했다. 특히 토큰당 평균 지연(t_v)이 크게 감소했으며, 전체 정확도는 0.2 % 이하의 미세한 감소에 그쳤다. 또한, 프록시 단독 사용(1.7 B)만으로도 2.3×~3.0×의 가속을 달성했지만, 정확도는 10 % 이상 떨어지는 반면, TriSpec은 정확도 손실을 최소화하면서 가속 효과를 극대화한다.
학습 측면에서는 두 가지 전략을 제시한다. (i) 드래프터와 어댑터를 동시에 공동 학습해 프록시와 타깃 양쪽의 특징을 모두 활용하는 방식, (ii) 사전 학습된 드래프터를 고정하고 어댑터만 프록시 특징에 맞게 미세조정하는 방식이다. 실험 결과는 공동 학습이 약간 더 높은 수용률을 보였지만, 어댑터‑전용 파인튜닝도 충분히 경쟁력 있는 성능을 제공한다는 점을 보여준다.
종합하면, TriSpec은 검증 비용을 최소화하기 위한 “경량 프록시 → 신뢰도 마진 → 선택적 타깃 호출”이라는 직관적인 흐름을 구현함으로써, 현재 SD 연구가 초점 맞춘 초안 생성 효율성(드래프터 속도, 수용률)과는 별개로 검증 단계의 최적화 가능성을 성공적으로 입증한다. 이는 향후 더 큰 모델을 실시간 서비스에 적용하거나, 비용 제한이 있는 엣지 디바이스에서 LLM 추론을 수행할 때 중요한 설계 원칙이 될 것으로 기대된다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기