확산 초안과 자기회귀 검증으로 구현하는 초고속 LLM 디코딩

읽는 시간: 2 분
...

📝 원문 정보

  • Title: DEER: Draft with Diffusion, Verify with Autoregressive Models
  • ArXiv ID: 2512.15176
  • 발행일: 2025-12-17
  • 저자: Zicong Cheng, Guo-Wei Yang, Jia Li, Zhijie Deng, Meng-Hao Guo, Shi-Min Hu

📝 초록 (Abstract)

효율성은 LLM 기반 에이전트와 추론 시스템에서 점점 더 중요한 실용적 과제로 대두되고 있으며, 이는 자동회귀(AR) 디코딩의 고유한 지연에 의해 제한된다. 추측 디코딩은 초안‑검증 방식을 통해 이 비용을 완화하지만, 기존 방법은 AR 초안 모델(드래프터)에 의존하는데, 이는 (1) 단계별 불확실성 누적으로 인해 목표 모델과 드래프터 간 신뢰가 점진적으로 붕괴되고, (2) AR 드래프터의 본질적인 순차 디코딩이라는 두 가지 근본적인 문제를 야기한다. 이러한 요인들은 속도 향상을 제한한다. 본 논문에서는 확산 기반 대형 언어 모델(dLLM) 드래프터가 확률 모델링 방식과 효율적인 병렬 디코딩 전략에서 근본적으로 차별화되어 위 문제들을 자연스럽게 극복할 수 있음을 보인다. 이를 바탕으로 DEER라는 효율적인 추측 디코딩 프레임워크를 제안한다. DEER는 확산 모델로 초안을 생성하고 AR 모델로 검증한다. 고품질 초안을 위해 DEER는 목표 AR 모델에 dLLM 드래프터를 정렬하는 두 단계 학습 파이프라인을 채택하고, 단일 스텝 디코딩을 통해 긴 초안 구간을 생성한다. 실험 결과 DEER는 초안 수용 길이가 최대 32 토큰에 달해 기존 EAGLE‑3이 달성한 10 토큰을 크게 앞선다. 또한 Hu‑manEval에서 Qwen3‑30B‑A3B 모델을 사용했을 때 DEER는 5.54배의 속도 향상을 기록했으며, EAGLE‑3은 2.41배에 머물렀다. 코드·모델·데모 등은 https://czc726.github.io/DEER/ 에서 공개될 예정이다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 대형 언어 모델(LLM)의 실시간 응용을 가로막는 핵심 병목인 자동회귀(AR) 디코딩 지연을 근본적으로 재고한다. 기존의 추측 디코딩(s speculative decoding) 접근법은 ‘초안‑검증(draft‑verify)’ 구조를 차용해, 빠른 초안 생성기(drafter)와 정확성을 보장하는 검증기(verify)로 구성된다. 그러나 초안 생성기가 AR 모델에 기반할 경우, 두 가지 심각한 제약이 발생한다. 첫째, 초안을 순차적으로 생성하면서 발생하는 불확실성은 토큰이 진행될수록 누적돼, 목표 모델이 초안을 받아들일 확률이 급격히 감소한다. 이는 ‘신뢰 붕괴(trust collapse)’라 불리며, 초안 길이가 제한되는 직접적인 원인이다. 둘째, AR 초안 생성 자체가 순차적이기 때문에 병렬화가 어…

📄 논문 본문 발췌 (Translation)

...(본문 내용이 길어 생략되었습니다. 사이트에서 전문을 확인해 주세요.)

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키