LLM 서빙 최적화 가변 프리필 디코드 길이와 메모리 제약

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 KV‑캐시 메모리 용량이 고정된 상황에서, 입력 프리필 길이와 출력 디코드 길이가 서로 다른 다수의 요청을 동시에 처리하기 위한 오프라인 스케줄링 문제를 정의한다. 프리필 단계에서 초기 KV 사용량이 결정되고, 디코드 단계에서는 토큰이 생성될 때마다 메모리가 1단위씩 증가한다. 저자들은 프리필 길이의 이질성이 문제를 NP‑hard 로 만든다는 것을 증명하고, 기존의 FCFS·Shortest‑First와 같은 휴리스틱이 최악의 경우 무한히 차이나는 성능을 보일 수 있음을 보인다. 이를 해결하기 위해 새로운 선택 메트릭을 기반으로 배치를 구성하는 Sorted‑F 알고리즘을 제안하고, 상수 배율(최대 48)의 경쟁 비를 갖는 것을 이론적으로 입증한다. 또한 작은 인스턴스에 대한 정확 해법과 대규모 환경에 적합한 여러 근사 휴리스틱을 구현·평가하여, 실제 워크로드(짧은 대화와 긴 문서 요약)에서 평균 지연 시간을 기존 방법보다 크게 감소시킴을 실증한다.

상세 분석

이 논문은 LLM 서빙 환경에서 메모리 제약을 고려한 배치 스케줄링을 수학적으로 모델링하고, 기존 연구가 가정한 ‘입력 길이 균일성’이 현실에서는 성립하지 않음을 지적한다. 프리필 단계에서 각 요청 i는 s_i 토큰을 차지하고, 디코드 단계에서는 j번째 토큰이 생성될 때마다 메모리 사용량이 s_i + j 로 선형 증가한다는 점을 핵심으로 삼는다. 이러한 동적 메모리 성장 특성은 동시에 여러 요청을 처리할 때 배치 가능한 요청 집합이 시점마다 달라지는 복합 최적화 문제를 만든다. 저자들은 먼저, 입력 길이가 서로 다를 경우 FCFS와 Shortest‑First(출력 길이 기준) 정책이 무한히 큰 경쟁 비를 가질 수 있음을 구성적 증명으로 보여준다. 이는 큰 프리필을 가진 요청이 메모리를 과도하게 점유해 다른 짧은 요청들의 디코드 진행을 방해함으로써 전체 지연이 급증하는 현상으로 설명된다.

문제의 NP‑hardness는 기존 스케줄링 문제(예: 배치 작업 스케줄링, 메모리 제한 하의 작업 배정)와의 귀류법 귀환을 통해 증명된다. 따라서 다항시간 내에 최적 해를 구하는 일반적인 알고리즘은 존재하지 않으며, 근사 알고리즘 설계가 필수적이다.

Sorted‑F는 ‘품질 메트릭 Q_i = s_i · o_i’(또는 변형)와 같은 복합 지표를 도입해, 프리필 길이와 디코드 길이 모두를 고려한 우선순위를 산출한다. 알고리즘은 다음 세 단계로 진행한다. 1) 모든 요청에 대해 Q_i 를 계산하고 내림차순 정렬한다. 2) 정렬된 순서대로 현재 메모리 용량 M 을 초과하지 않는 가장 큰 배치를 형성한다(프리필과 디코드 토큰을 혼합). 3) 배치 내에서는 디코드 토큰이 짧은 요청을 먼저 처리하는 Shortest‑Output‑First 정책을 적용한다. 이 과정에서 배치 크기와 향후 디코드 비용 사이의 트레이드오프를 균형 있게 맞추어, 전체 지연을 상수 배율(최대 48) 이내로 제한한다는 정량적 증명을 제공한다.

실제 시스템 적용을 위해 저자들은 세 가지 실용적 변형을 제시한다. (1) 작은 규모에서는 동적 프로그래밍 기반의 정확 해법을 사용해 최적 배치를 탐색한다. (2) 중간 규모에서는 로컬 스와프 탐색을 통해 현재 배치를 반복적으로 개선한다. (3) 대규모에서는 ‘Quantile‑Greedy’ 전략으로 상위 q‑분위수 요청을 우선 선택해 빠르게 배치를 구성한다. 각 방법의 시간 복잡도와 메모리 요구량을 분석하고, 워크로드 특성(프리필·디코드 길이 분포)에 따라 적절한 알고리즘을 선택하도록 가이드라인을 제공한다.

또한 논문은 정수계획(IP) 모델링을 통해 최적 해의 존재를 보이지만, LP 완화와 그 해의 구조를 활용한 ‘Sorted‑LP’ 휴리스틱을 설계한다. Sorted‑LP는 LP 해에서 기대 시작 시간을 추출하고, 이를 기준으로 요청을 정렬해 배치를 만든다. 실험 결과, Sorted‑LP는 Sorted‑F와 비슷한 성능을 보이면서 구현 복잡도가 낮다.

실험에서는 공개 데이터셋을 활용해 짧은 대화와 긴 문서 요약 요청을 혼합한 시나리오를 구성하였다. 메모리 용량 M 을 1.5 × 평균 요청 길이 수준으로 설정하고, 다양한 백로그 크기(n = 200~2000)에서 네 가지 스케줄링 정책(FCFS, Shortest‑First, Sorted‑LP, Sorted‑F)을 비교했다. 결과는 Sorted‑F가 평균 지연을 30%~45% 정도 감소시켰으며, 특히 프리필 길이가 큰 요청이 많을 때 그 효과가 두드러졌다. 또한 메모리 사용률과 GPU 활용도 측면에서도 기존 정책보다 높은 효율을 달성했다.

이 논문은 LLM 서빙 시스템 설계 시, 단순히 디코드 길이만을 기준으로 하는 기존 스케줄링이 비효율적일 수 있음을 경고하고, 프리필·디코드 복합 특성을 반영한 정량적 메트릭과 배치 구성 전략이 필요함을 증명한다. 제안된 알고리즘은 메모리 제한 하에서 실시간 배치 결정을 지원하도록 튜닝 가능하며, 클라우드 서비스 제공자가 피크 타임에 발생하는 대규모 백로그를 효율적으로 처리하는 데 실용적인 가이드라인을 제공한다.

LLM 서빙 최적화 가변 프리필 디코드 길이와 메모리 제약

초록

상세 분석

댓글 및 학술 토론

의견 남기기