추론 기반 LLM을 위한 단계 인식 스케줄러 PASCAL
초록
PASCAL은 추론 단계와 답변 단계를 구분해 우선순위를 다르게 적용함으로써, 추론 기반 대형 언어 모델의 첫 토큰 도착 시간(TTFT)을 크게 단축하고, 답변 단계에서는 토큰 페이싱과 제한된 프리엠션을 사용해 사용자 경험(QoE)을 유지한다. 계층적 스케줄링과 단계 경계에서의 동적 마이그레이션을 결합해 GPU 메모리 압박 상황에서도 높은 SLO 달성을 보인다. 실험 결과, DeepSeek‑R1‑Distill‑Qwen‑32B 모델에서 꼬리 TTFT를 최대 72 % 감소시켰다.
상세 분석
본 논문은 기존 LLM 서빙 시스템이 “프리필‑디코딩” 두 단계만을 인식하고, 추론 기반 모델이 추가로 생성하는 내부 추론 토큰을 무시한다는 근본적인 한계를 지적한다. 추론 단계는 사용자에게 보이지 않지만 TTFT에 직접 포함되므로, 이 단계의 지연은 전체 응답 지연을 크게 확대한다. 반면 답변 단계는 사용자에게 직접 노출되는 토큰을 생성하므로, 일정 수준의 토큰 처리량(TPOT)만 유지하면 충분히 좋은 사용자 경험을 제공한다.
PASCAL은 이러한 특성을 반영해 단계 인식 스케줄링을 도입한다.
- 우선순위 차등: 추론 단계는 높은 우선순위로 스케줄링해 가능한 한 빨리 완료하도록 하고, 답변 단계는 낮은 우선순위로 배치해 메모리·시간 자원을 공유한다.
- 계층적 구조: 인스턴스 수준에서는 모델 복제본을 배치하고, 인스턴스 내부에서는 토큰 단위의 시간 공유(preemption)와 토큰 페이싱을 적용한다.
- 동적 마이그레이션: 추론‑답변 전환 시점에 요청을 다른 인스턴스로 이동시켜 메모리 사용률을 균등하게 만든다. 이는 KV 캐시가 크게 증가하는 디코딩 단계에서 메모리 압박을 완화한다.
메모리 관리 측면에서 PASCAL은 기존 FCFS나 라운드‑로빈(RR) 방식과 달리, 프리엠션 정책을 단계별로 다르게 적용한다. 추론 단계에서는 가능한 한 프리엠션을 피하고, 답변 단계에서는 토큰 페이싱을 통해 일시적인 중단이 발생해도 사용자에게 전달되는 토큰 흐름이 일정하게 유지되도록 설계했다. 이를 위해 토큰 페이서가 버퍼링된 토큰을 사용자의 읽기 속도에 맞춰 점진적으로 방출한다.
실험에서는 DeepSeek‑R1‑Distill‑Qwen‑32B(32 B 파라미터) 모델을 대상으로, 다양한 동시 요청 부하와 GPU 메모리 제한 상황을 시뮬레이션했다. 결과는 다음과 같다.
- 꼬리 TTFT(99th percentile) 감소: 최대 72 %
- 평균 QoE 점수 향상: 0.85 → 0.96 (정규화된 0‑1 스케일)
- 답변 단계 TPOT 유지: 5‑10 tokens/s SLO 충족률 98 % 이상
이러한 성과는 추론 단계의 지연을 최소화하고, 답변 단계에서는 토큰 흐름을 부드럽게 유지함으로써 전체 사용자 경험을 크게 개선한다는 점에서 의미가 크다. 또한, 단계 경계에서의 마이그레이션은 메모리 사용 효율을 높여 GPU 자원의 활용도를 최적화한다는 장점을 제공한다.
본 연구는 추론 기반 LLM이 점차 서비스 환경에 도입됨에 따라, 서빙 시스템 설계가 단순히 “프리필‑디코딩” 구분을 넘어 내부 추론 단계까지 고려해야 함을 강력히 시사한다. 앞으로는 다양한 추론 전략(예: 트리 구조 추론)과 멀티‑GPU/클러스터 환경에서도 적용 가능한 확장형 단계 인식 스케줄링이 연구될 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기