KV 캐시 스케줄링을 위한 경쟁적 비클레어보이언트 알고리즘
초록
본 논문은 대규모 언어 모델(LLM) 추론 시 KV‑cache 메모리 사용량이 토큰 생성에 따라 선형적으로 증가하는 특성을 고려하여, 응답 길이를 사전에 알 수 없는 비클레어보이언트 환경에서도 일정한 경쟁비를 보장하는 새로운 스케줄링 알고리즘을 제안한다. 기하학적 슬라이스와 단계적 파이프라인을 결합한 Geometric Slicing Algorithm(GSA)은 일반 인스턴스에서 경쟁비 61.92, 메모리가 충분히 큰 경우 32를 달성한다. 또한, 클레어보이언트 버전인 Geometric Batching Algorithm(GBA)은 일반 인스턴스에서 근사비 10.67, 대메모리 환경에서 6.75를 기록한다. 실험 결과는 실제 요청 트레이스에서도 이론적 보장을 유지하면서 실용적인 성능 향상을 확인한다.
상세 분석
본 연구는 LLM 추론 과정에서 KV‑cache가 토큰당 일정량의 메모리를 추가한다는 사실을 모델링함으로써, 전통적인 정적 자원 스케줄링과는 근본적으로 다른 문제를 정의한다. 특히, 모든 요청이 동시에 도착하고, 각 요청의 응답 길이가 실행 중에만 점진적으로 드러나는 ‘오프라인 배치’ 설정을 채택했으며, 메모리 초과 시 현재 진행 중인 작업을 강제 종료(kill‑and‑restart)해야 하는 제약을 부과한다. 이러한 환경에서는 두 가지 핵심 난관이 존재한다. 첫째, 메모리 사용량이 시간에 따라 증가하므로 배치 크기를 고정하기 어렵고, 과도한 동시 실행은 메모리 오버플로를 초래한다. 둘째, 작업의 남은 길이를 알 수 없기 때문에 전통적인 SJF(Shortest Job First)와 같은 클레어보이언트 스케줄링 전략을 적용할 수 없다.
논문은 이 문제를 해결하기 위해 두 가지 혁신적 기법을 도입한다. ① 기하학적 슬라이스(Geometric Slicing): 작업들을 응답 길이의 추정값에 따라 기하급수적으로 구간화하고, 각 구간마다 동일한 ‘페이즈’를 정의한다. 페이즈가 끝날 때마다 현재 진행 중인 작업을 모두 재시작(kill)함으로써 메모리 노출을 상한선 이하로 제한한다. 이 구조는 작업 길이에 대한 불확실성을 완화하고, 최악의 경우에도 메모리 사용량이 페이즈당 일정 비율을 초과하지 않게 만든다. ② 계단식 파이프라인(Staggered Pipeline): 동일한 페이즈 내에서 작업들을 동일 시점에 시작하지 않고, 시작 시점을 의도적으로 지연시켜 메모리 피크가 서로 겹치지 않도록 한다. 결과적으로 전체 배치의 메모리 프로파일이 ‘톱니형’이 아니라 부드러운 곡선을 이루게 되며, 같은 메모리 한도 내에서 더 많은 작업을 동시에 진행할 수 있다.
이 두 기법을 결합한 **Geometric Slicing Algorithm (GSA)**는 비클레어보이언트 상황에서도 전체 흐름 시간(총 완료 시간)의 최적값에 대해 61.92배 이하의 경쟁비를 보장한다. 메모리 용량 M이 충분히 큰(프롬프트와 응답 길이에 비해 무한대에 가까운) 경우에는 경쟁비가 32로 개선된다. 이론적 증명은 메모리‑시간 면적(Memory‑Time Area) 관점을 도입해, 최적 클레어보이언트 스케줄러의 면적 하한을 구하고, GSA가 이 하한에 비해 일정 상수 배만큼만 초과함을 보인다.
클레어보이언트 버전인 **Geometric Batching Algorithm (GBA)**는 동일한 구조를 사용하지만 작업 길이를 사전에 알기 때문에 슬라이스 구간을 정확히 맞출 수 있다. 따라서 근사비는 일반 인스턴스에서 10.67, 대메모리 환경에서는 6.75로 크게 향상된다. 특히 동일한 응답 길이를 가진 작업들에 대해서는 근사비가 2에 수렴하고, 메모리 한도가 무한대로 커질 때는 1에 수렴한다는 점에서 이론적 최적에 매우 근접한다.
실험에서는 LMSYS‑Chat‑1M 데이터셋을 기반으로 한 실제 요청 트레이스를 사용해 GSA와 GBA의 실효성을 검증하였다. 결과는 기존 최첨단 베이스라인(예: Chen et al. 2025)의 O(log M) 경쟁비를 크게 앞서는 동시에, 평균 지연시간과 메모리 사용 효율에서도 유의미한 개선을 보여준다. 특히, GBA‑D와 GSA‑SPEC 같은 휴리스틱 변형은 이론적 보장을 유지하면서도 구현 복잡도를 낮추는 장점을 제공한다.
본 논문의 주요 기여는 다음과 같다. 1) KV‑cache 메모리 동적 증가를 정확히 모델링한 비클레어보이언트 배치 스케줄링 문제에 대해 최초로 상수 경쟁비(61.92)를 달성한 알고리즘을 제시. 2) 동일 프레임워크를 클레어보이언트 상황에 적용해 기존 9216 수준의 근사비를 10.67로 대폭 개선. 3) 기하학적 슬라이스와 계단식 파이프라인이라는 두 가지 새로운 설계 원칙을 도입해 메모리‑시간 면적 분석을 가능하게 함. 4) 실제 워크로드에 대한 실험을 통해 이론적 보장이 실무에서도 유효함을 입증. 이러한 결과는 대규모 LLM 서비스 운영 시 메모리 비용을 절감하고, 응답 지연을 최소화하는 데 실질적인 가치를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기