스펙터클 디코딩을 위한 실시간 강화학습 기반 통합 학습·서빙 시스템
초록
Aurora는 스펙터클 디코딩을 위한 사전 학습과 서빙을 분리하던 기존 방식을 탈피해, 실시간 추론 트레이스에서 즉시 스펙터클러를 학습·업데이트하는 비동기 강화학습 프레임워크를 제시한다. 이를 통해 day‑0 배포와 도메인 드리프트에 대한 빠른 적응을 가능하게 하며, 최신 대형 모델에서 1.5배, 기존 스펙터클러 대비 1.25배의 속도 향상을 달성한다.
상세 분석
본 논문은 스펙터클 디코딩이 LLM 서빙 비용을 크게 절감할 수 있음에도 불구하고, 기존 파이프라인이 사전 학습된 드래프트 모델을 별도 단계에서 준비하고 이를 서빙에 적용하는 방식으로 설계돼 배포 지연, 효용 피드백 지연, 도메인 드리프트에 따른 성능 저하라는 세 가지 근본적인 문제를 야기한다는 점을 명확히 짚는다. Aurora는 이러한 문제를 해결하기 위해 스펙터클러를 ‘정책’으로 보고, 검증기(타깃 모델)의 accept/reject 신호를 즉각적인 보상으로 활용하는 비동기 강화학습(Async RL) 형태로 재구성한다. 핵심 설계는 (1) SGLang 기반 추론 서버가 실시간으로 토큰 제안·검증 결과와 hidden state를 버퍼에 기록하고, (2) 별도 학습 서버가 이 버퍼에서 온‑폴리시 데이터를 샘플링해 스펙터클러를 지속적으로 업데이트한다는 점이다. 업데이트는 ‘핫 스와핑’ 방식으로 서빙 중단 없이 적용되며, 동기화 정책을 지연시켜 서비스 지연이나 캐시 무효화와 같은 부작용을 최소화한다. 또한, 수용된 토큰은 양의 보상, 거부된 토큰은 암묵적 부정 보상으로 활용해 샘플 효율성을 크게 높인다. 논문은 스펙터클 디코딩의 기대 속도 향상이 acceptance rate α와 look‑ahead γ, 그리고 드래프트·타깃 연산비율 c에 의해 결정된다는 기존 모델을 재검토하고, 실제 시스템에서는 c가 하드웨어·배치·정밀도 등에 따라 크게 변동하므로 오프라인 acceptance rate만으로는 정확한 효용을 예측하기 어렵다고 지적한다. Aurora는 이러한 시스템 레벨 변수를 실시간 피드백에 포함시켜 학습 목표를 ‘엔드‑투‑엔드 지연 최소화’로 직접 최적화한다. 실험에서는 최신 Frontier 모델(MiniMax M2.1 229B, Qwen3‑Coder‑Next 80B)에서 day‑0 배포 시 1.5배 속도 향상을, 도메인 변동이 있는 워크로드에서는 기존 오프라인 학습 스펙터클러 대비 1.25배 추가 향상을 입증한다. 또한, 대규모 활성화 수집 파이프라인을 제거함으로써 저장·전송 비용을 크게 절감하고, 다양한 스펙터클 디코딩 변형과도 호환되는 알고리즘‑중립적 설계임을 강조한다. 전체적으로 Aurora는 스펙터클 디코딩을 모델링 문제가 아닌 ‘학습‑서빙 폐쇄 루프’ 문제로 재정의함으로써, 실시간 적응성과 비용 효율성을 동시에 달성한 혁신적 시스템 아키텍처라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기