혼합 워크로드 LLM 추론을 위한 적응형 스케줄러 EWSJF

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

EWSJF는 대규모 언어 모델(Large Language Model) 서비스에서 짧은 인터랙티브 요청과 긴 배치 작업이 동시에 발생하는 혼합 워크로드를 효율적으로 처리하기 위해 설계된 적응형 요청‑레벨 스케줄러이다. unsupervised Refine‑and‑Prune 클러스터링으로 성능이 동질적인 요청 그룹을 자동 생성하고, 동적 큐 라우팅과 밀도‑가중 점수 함수를 통해 긴급도와 공정성을 동시에 고려한다. 베이지안 메타‑옵티마이저가 실시간 피드백을 바탕으로 파라미터를 지속적으로 튜닝한다. vLLM에 적용한 결과, 전체 처리량이 30 % 이상 향상되고 짧은 요청의 첫 토큰 응답 시간(TTF)은 최대 4배 단축되었다.

상세 분석

EWSJF는 기존 LLM 서빙 시스템이 겪는 “head‑of‑line blocking”(긴 요청이 앞에 있을 경우 전체 지연이 발생) 문제를 근본적으로 해결하고자 설계되었다. 핵심은 네 가지 모듈로 구성된 계층적 아키텍처이다. 첫 번째 모듈인 Refine‑and‑Prune은 입력 프롬프트 길이(또는 예상 pre‑fill 비용)를 기준으로 동적 밀도 기반 히스토그램을 만든 뒤, K‑means(초기 k=3)로 대략적인 구간을 잡고, 각 구간을 재귀적으로 분할·정제한다. 이 과정에서 “minimum queue width”(최소 큐 폭)와 “pruning threshold”(정제 임계값) 같은 도메인 제약을 적용해, 과도하게 작은 큐가 생기지 않도록 한다. 결과적으로 생성된 큐는 프롬프트 길이 구간이 연속적이며, 같은 구간 내 요청은 전처리 비용이 거의 동일한 성능‑동질성을 가진다.

두 번째 모듈인 Dynamic Queue Routing은 들어오는 요청을 현재 활성화된 큐 경계와 비교해 적절한 큐에 배정한다. 요청이 기존 큐 경계 사이에 위치하면 On‑Demand Bubble Queue Creation 메커니즘을 호출해 즉시 새로운 “버블 큐”를 삽입한다. 이는 실시간 워크로드 변동에 빠르게 대응하도록 설계된 부분이다.

세 번째 모듈인 Density‑Weighted Scoring은 각 큐의 가장 오래된 요청에 대해 점수를 계산한다. 점수 식은
Score(r,q)=q_f·(w_base + w_urgency·cs + w_fairness·log(b+1))
이며, 여기서 cs = W_t / C_pre‑fill(b) 로 정의된 “urgency”는 대기 시간(W_t)을 예상 전처리 비용(C_pre‑fill)으로 정규화한다. q_f = q_i/(b+1) 은 짧은 작업을 우선시하는 SJF 요소이며, log(b+1) 은 긴 작업이 무한히 스타베되지 않도록 하는 공정성 보정이다. w_base, w_urgency, w_fairness는 베이지안 메타‑옵티마이저에 의해 지속적으로 업데이트되는 학습 가능한 파라미터이며, 큐의 평균 프롬프트 길이(¯b_q)와 같은 메타‑피처에 조건부로 매핑된다(예: w_urgency(¯b_q)=a_u·¯b_q + b_u). 이렇게 함으로써 스케줄러는 짧은 큐에서는 긴급도에, 긴 큐에서는 공정성에 가중치를 동적으로 조정한다.

네 번째 모듈인 Bayesian Meta‑Optimization은 두 개의 루프를 운영한다. 전략적 루프(offline)에서는 대규모 히스토리 데이터를 수집·분석해 전체 큐 구조와 기본 파라미터를 재계산한다. 온라인 루프에서는 최근 몇 초간의 메트릭(예: 평균 TTF, GPU 활용도, 큐 비어 있음 카운터)을 베이지안 업데이트(예: Thompson Sampling 또는 Gaussian Process)로 빠르게 반영한다. 이 메타‑옵티마이저는 비선형, 비볼록 최적화 공간에서도 탐색·활용 균형을 유지해, 급격한 트래픽 변동에도 스케줄링 정책이 과도하게 흔들리지 않도록 한다.

실험은 vLLM 기반 클러스터(8 GPU, 80 GB VRAM)에서 수행되었으며, 워크로드는 짧은 인터랙티브 쿼리(1‑2 tokens)와 긴 배치(512‑1024 tokens) 요청을 1:1 비율로 혼합한 시나리오를 사용했다. 비교 대상은 기본 FCFS, 단순 SJF, 그리고 Orca‑style 토큰‑레벨 스케줄러였다. 결과는 다음과 같다. (1) 전체 처리량(throughput)은 FCFS 대비 30 % 이상 증가했으며, 이는 큐가 성능‑동질성을 갖게 됨으로써 연속 배치 효율이 크게 개선된 덕이다. (2) 짧은 요청의 평균 TTF는 4배 가량 감소했으며, 95‑percentile tail latency도 2.5배 감소했다. (3) GPU 메모리 사용률은 85 % 수준을 유지하면서도 스케줄링 오버헤드는 1‑2 ms 이하로 미미했다.

이 논문은 LLM 서빙에서 “요청‑레벨”과 “토큰‑레벨” 스케줄링을 명확히 분리하고, 앞 단계에서 워크로드 구조를 학습·적응함으로써 하위 단계의 연속 배치 최적화가 최대한 활용될 수 있음을 입증한다. 또한, 비지도 클러스터링과 베이지안 메타‑학습을 결합한 설계는 다른 비동기 서비스(예: 비디오 트랜스코딩, 온라인 추론 파이프라인)에도 일반화 가능성이 높다. 다만, 현재 구현은 프롬프트 길이와 pre‑fill 비용만을 주요 피처로 사용하고 있어, 토큰‑단위 동적 비용 변동(예: KV‑cache 히트율)이나 멀티‑GPU 스케일링 시 발생하는 통신 병목을 완전히 포착하지 못한다는 한계가 있다. 향후 연구에서는 이러한 추가 컨텍스트를 메타‑피처에 포함시키고, 분산 환경에서의 정책 동기화 메커니즘을 탐색할 필요가 있다.

혼합 워크로드 LLM 추론을 위한 적응형 스케줄러 EWSJF

초록

상세 분석

댓글 및 학술 토론

의견 남기기