LLM 스케줄링, 곱하기 하나면 충분해

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LLM 서비스 클러스터에서 요청을 라우팅할 때, KV‑Cache 활용도와 인스턴스 부하 균형이라는 두 목표를 동시에 만족시키는 간단한 점수 계산법을 제안한다. 두 지표(새 프리필 토큰 수와 현재 배치 크기)를 곱한 값만을 스케줄링 점수로 사용하면 하이퍼파라미터 튜닝 없이도 기존 복합 방식보다 TTFT와 TPOT을 크게 개선한다.

상세 분석

논문은 LLM 서빙 환경을 “프리필‑디코드” 두 단계로 구분하고, 각각의 지연을 TTFT와 TPOT이라는 메트릭으로 측정한다. 기존 스케줄링 방식은 (1) 가중합(linear combination)으로 KV‑Cache 히트 비율과 인스턴스 큐 길이를 결합하거나, (2) 필터‑후 선택, (3) 복잡한 시뮬레이터 기반 예측을 사용한다. 이들 방법은 워크로드마다 최적의 가중치나 임계값을 찾아야 하며, 동적 트래픽 변화에 취약하고 구현 비용이 크다.

저자들은 두 핵심 지표를 “새 프리필 토큰 수(P‑tokens)”와 “현재 배치 크기(BS)”로 정의한다. P‑tokens는 라우팅 대상 인스턴스에 KV‑Cache가 얼마나 많이 재활용될지를 직접적으로 나타내며, BS는 인스턴스의 현재 부하를 가장 직관적으로 반영한다. 두 값을 단순히 곱하면 스코어 = P‑tokens × BS가 된다. 이때 가중치가 곱해진 형태이므로, 인스턴스 간 비교 시 가중치가 상쇄되어 별도의 튜닝이 필요 없으며, 가중합에서 기대되는 “큰 값은 좋다 / 작은 값은 나쁘다”라는 순서 관계를 그대로 유지한다.

수학적으로는 가중합 = α·P + β·B와 곱셈 = P·B가 동일한 순위 결정을 제공하려면 α·β > 0이면 충분하고, 실제 시스템에서는 α와 β가 양수이므로 조건이 자동으로 만족한다. 저자들은 곱셈이 실패할 수 있는 경우를 “P와 B가 극단적으로 비대칭일 때”로 정의하고, 이를 탐지하는 두 단계(예비 검증 → 백업 로드밸런싱) 방식을 제시한다. 실험에서는 16 GPU H20 클러스터, Qwen2‑7B(밀집)와 Qwen3‑30B(MoE) 모델을 사용해 실제 챗봇, API 호출, 코딩 에이전트 워크로드를 평가했다. 결과는 vLLM‑v1과 상용 스케줄러 대비 TTFT를 92 %·52 % 감소, TPOT을 21 %·20 % 감소시켰으며, 시뮬레이터 기반 방법보다 구현 복잡도가 현저히 낮았다.

또한, LMetric이라는 Rust 기반 프레임워크를 구축해 다양한 정책을 동일한 인터페이스로 구현·비교했다. 이 프레임워크는 인디케이터 팩토리를 통해 실시간으로 Q‑BS, R‑BS, P‑tokens 등을 수집하고, DSL 형태의 한 줄 코드로 스코어 함수를 정의할 수 있게 함으로써 정책 실험 비용을 크게 줄였다.

결론적으로, 복잡한 가중치 조정이나 시뮬레이션 없이도 곱셈 스코어 하나로 KV‑Cache 활용과 부하 균형을 동시에 최적화할 수 있음을 증명했으며, 드물게 발생하는 예외 상황도 사전에 탐지·우회할 수 있는 메커니즘을 제공한다. 이는 대규모 LLM 서비스 운영자에게 구현·운영 비용 절감과 성능 향상을 동시에 제공하는 실용적인 해결책이다.

LLM 스케줄링, 곱하기 하나면 충분해

초록

상세 분석

댓글 및 학술 토론

의견 남기기