거울형 추측 디코딩 LLM 추론의 직렬 장벽을 깨다

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Mirror‑SD는 초조기 종료 신호와 다중 토큰 스트리밍을 활용해 초안 모델을 NPU에, 목표 모델을 GPU에 배치함으로써 추측 디코딩의 병목인 초안 지연을 크게 감소시킨다. 이중 파이프라인 설계와 이기종 가속기 병렬 실행을 통해 14B‑66B 모델에서 2.8×‑5.8×의 실시간 속도 향상을 달성하고, 기존 최고 성능인 EAGLE3 대비 평균 30%의 추가 개선을 기록한다.

상세 분석

본 논문은 기존 추측 디코딩(SD) 체계가 초안 모델의 자동회귀 생성 비용 때문에 수용률(acceptance rate)과 지연(latency) 사이에 불가피한 트레이드오프가 존재한다는 점을 정확히 지적한다. Medusa·Hydra·EAGLE과 같은 선행 연구들은 초안의 규모를 축소하거나 전용 추측 레이어를 도입해 초안 지연을 완화했지만, 그 결과 수용률이 감소하거나 추가적인 동기화 오버헤드가 발생해 확장성에 한계를 보였다. Mirror‑SD는 이러한 한계를 두 축으로 해소한다. 첫째, 목표 모델의 중간 레이어에서 Top‑κ 토큰을 추출해 “조기 종료 신호”(early‑exit proxy)로 사용하고, 이를 저대역폭 토큰 채널을 통해 초안 모델에 전달한다. 초안은 이 신호를 기반으로 다중 브랜치·완전(Branch‑Complete) 롤아웃을 동시에 수행한다. 둘째, 초안은 Speculative Streaming(SS) 기법을 적용해 한 스텝에 다수의 토큰을 생성·검증함으로써 초안 단계의 실제 연산 횟수를 γ/η 로 압축한다. 이러한 설계는 초안의 지연 T_draft을 크게 낮추면서도 수용률 ρ를 유지하거나 오히려 향상시킨다.

또한, 이 논문은 이기종 시스템 설계에 초점을 맞춘다. 현대 SoC에 널리 탑재된 GPU와 NPU의 특성을 활용해, 고정밀·고처리량이 요구되는 목표 모델은 GPU에, 저전력·저정밀 추론에 최적화된 초안 모델은 NPU에 각각 매핑한다. 이를 위해 Megatron‑style 텐서 병렬(TP)과 SPD‑style 샤딩을 각각 목표와 초안에 적용하고, 두 디바이스 간에는 토큰 수준의 경량 메시지만 교환한다. 이렇게 하면 디바이스 간 동기화 비용이 최소화되고, 양쪽 파이프라인이 거의 완전 병렬로 진행된다.

수학적으로는 초안‑목표 연산을 순차적 관계 ˆy_{t+1:t+γ} ≺ verification ≺ ˆy_{next} 로 모델링하고, Mirror‑SD는 이 관계를 “동시 실행”으로 전환한다. 초안이 만든 가설 트리 T_t의 루트는 Top‑κ 후보이며, 목표가 수용한 프리픽스와 교정 토큰이 이미 트리 내에 존재하면 재사용(reuse)하고, 없을 경우에만 새로운 롤아웃을 수행한다. 이 과정은 수용률 ρ와 연산량 사이의 상관관계를 완화시켜, 기존 SD가 겪던 “수용률이 높아야 지연이 늘어난다”는 제약을 깨뜨린다.

실험에서는 SpecBench 벤치마크를 이용해 14B, 34B, 66B 모델을 테스트했으며, 다양한 텍스트 생성·코드 완성·대화 시나리오에서 평균 3.9×(최소 2.8×, 최대 5.8×)의 벽시계 시간 감소를 보였다. 특히 EAGLE3 대비 30% 이상의 상대적 개선을 기록했으며, 메모리 사용량과 전력 효율에서도 경쟁 모델보다 우수한 결과를 얻었다.

전반적으로 Mirror‑SD는 “초안‑목표 상호 추측”이라는 새로운 알고리즘 패러다임과 “이기종 가속기 병렬화”라는 시스템 레벨 최적화를 결합함으로써, 추측 디코딩이 직면한 근본적인 지연‑수용률 트레이드오프를 실질적으로 해소한다는 점에서 큰 의의를 가진다.

거울형 추측 디코딩 LLM 추론의 직렬 장벽을 깨다

초록

상세 분석

댓글 및 학술 토론

의견 남기기