확산 초안과 자기회귀 검증으로 구현하는 초고속 LLM 디코딩
읽는 시간: 2 분
...
📝 원문 정보
- Title: DEER: Draft with Diffusion, Verify with Autoregressive Models
- ArXiv ID: 2512.15176
- 발행일: 2025-12-17
- 저자: Zicong Cheng, Guo-Wei Yang, Jia Li, Zhijie Deng, Meng-Hao Guo, Shi-Min Hu
📝 초록 (Abstract)
효율성은 LLM 기반 에이전트와 추론 시스템에서 점점 더 중요한 실용적 과제로 대두되고 있으며, 이는 자동회귀(AR) 디코딩의 고유한 지연에 의해 제한된다. 추측 디코딩은 초안‑검증 방식을 통해 이 비용을 완화하지만, 기존 방법은 AR 초안 모델(드래프터)에 의존하는데, 이는 (1) 단계별 불확실성 누적으로 인해 목표 모델과 드래프터 간 신뢰가 점진적으로 붕괴되고, (2) AR 드래프터의 본질적인 순차 디코딩이라는 두 가지 근본적인 문제를 야기한다. 이러한 요인들은 속도 향상을 제한한다. 본 논문에서는 확산 기반 대형 언어 모델(dLLM) 드래프터가 확률 모델링 방식과 효율적인 병렬 디코딩 전략에서 근본적으로 차별화되어 위 문제들을 자연스럽게 극복할 수 있음을 보인다. 이를 바탕으로 DEER라는 효율적인 추측 디코딩 프레임워크를 제안한다. DEER는 확산 모델로 초안을 생성하고 AR 모델로 검증한다. 고품질 초안을 위해 DEER는 목표 AR 모델에 dLLM 드래프터를 정렬하는 두 단계 학습 파이프라인을 채택하고, 단일 스텝 디코딩을 통해 긴 초안 구간을 생성한다. 실험 결과 DEER는 초안 수용 길이가 최대 32 토큰에 달해 기존 EAGLE‑3이 달성한 10 토큰을 크게 앞선다. 또한 Hu‑manEval에서 Qwen3‑30B‑A3B 모델을 사용했을 때 DEER는 5.54배의 속도 향상을 기록했으며, EAGLE‑3은 2.41배에 머물렀다. 코드·모델·데모 등은 https://czc726.github.io/DEER/ 에서 공개될 예정이다.💡 논문 핵심 해설 (Deep Analysis)
