플릿옵트: 비용 최소화를 위한 이중 풀 설계와 압축 라우팅 구현
플릿옵트는 워크로드의 프롬프트 길이 CDF와 P99 TTFT 목표를 입력으로, M/G/c 큐 모델을 기반으로 최소 비용의 두 풀(단기·장기) GPU 구성을 분석적으로 도출한다. 경계 토큰 B*에서 발생하는 8배~42배의 비용 절벽을 완화하기 위해, 게이트웨이 레이어에서 경계 근처 요청을 추출 압축(C&R)하여 효과적인 라우팅 경계를 γ·B* 로 이동시킨다. 실험 결과, 동질 풀 대비 GPU 비용을 6%~82% 절감하고, 압축 라우팅만으로도 추가…
저자: Huamin Chen, Xunzhuo Liu, Yuhan Liu
**1. 서론**
LLM 서비스는 128K 토큰 이상의 컨텍스트 윈도우를 지원하지만, 실제 요청의 80%가 2K 토큰 이하이다. 이로 인해 KV‑캐시가 대부분 비활성 상태인 채로 GPU가 할당돼 비용 효율이 크게 떨어진다. 기존의 풀 라우팅(pool routing) 기법은 요청을 짧은 컨텍스트 풀(Pₛ)과 긴 컨텍스트 풀(Pₗ)로 나누어 비용을 절감했지만, 경계 Bₛₕₒʳₜ 바로 위의 토큰 하나만 초과하면 장기 풀의 슬롯당 처리량이 급감하는 ‘비용 절벽(cost cliff)’이 존재한다.
**2. 배경**
- **2.1 풀 라우팅 기본**: 요청의 총 토큰 Lₜₒₜₐₗ을 기준으로 Bₛₕₒʳₜ 이하이면 Pₛ, 초과이면 Pₗ에 라우팅한다.
- **2.2 KV‑캐시와 비용 절벽**: Llama‑3‑70B fp16 기준 KV‑캐시 1 토큰당 320 KB. 64K 토큰 슬롯은 약 20 GB를 차지해 GPU당 16개의 슬롯만 가능(ρ = 8~42). 따라서 Bₛₕₒʳₜ+1 토큰 요청은 8~42배 더 많은 GPU 자원을 소모한다.
**3. 분석 모델**
각 풀을 M/G/c 큐로 모델링한다. 도착률 λ, 라우팅 비율 α, β, 압축 성공률 p_c를 정의하고, 서비스 시간은 배치 반복 시간 t_iter = W + H·n_slots 로 계산한다. Erlang‑C와 Kimura 근사를 통해 P99 대기시간 W₉₉를 구하고, SLO(Tₛₗₒ) 제약을 만족하도록 최소 GPU 수 n*ₛ, n*ₗ을 정수 최적화한다.
**4. 최적 풀 구성**
- **4.1 풀당 GPU 수**: 각 풀은 독립적인 M/G/c 문제이므로, 이용률 상한 ρ_max = 0.85를 적용해 n* = min{c | W₉₉ ≤ Tₛₗₒ,eff}.
- **4.2 최적 경계 B*ₛₕₒʳₜ**: 비용 함수 C = c_s nₛ + c_l nₗ을 Bₛₕₒʳₜ에 대해 미분하면 “동등한 한계 GPU 비용” 조건이 도출된다. 즉, 추가 요청을 단기 풀에 라우팅했을 때 발생하는 비용 증가와 장기 풀에서 제거했을 때 절감되는 비용이 동일해야 한다.
- **4.3 비용 절벽 문제**: B*ₛₕₒʳₜ 근처의 경계선(band) 트래픽이 전체의 4.6%~11.2%를 차지하고, 이는 장기 풀에 투입될 경우 전체 비용의 43%~76%를 차지한다. 따라서 B*ₛₕₒʳₜ만으로는 실제 비용 최소화를 달성하기 어렵다.
**5. Compress‑and‑Route (C&R) 구현**
C&R는 게이트웨이 레이어에서 경계선 요청을 추출 압축한다. 압축 후 토큰 예산 T_c = Bₛₕₒʳₜ − L_out 으로 설정해 KV‑오버플로를 방지한다. 압축 파이프라인은: (1) 문장 분할, (2) TextRank·Position·TF‑IDF·Novelty 가중치 합산, (3) 점수 기반 문장 선택, (4) 토큰 제한 도달 시 종료. 압축 시간은 2~7 ms, 평균 오버헤드 ≤ 0.58 ms이며, 프로즈와 RAG에 대해 100% 압축 성공률(p_c = 1.0)을 보인다. 압축 후 라우팅 경계는 γ·Bₛₕₒʳₜ 로 이동하며, γ는 플래너가 1.0~2.0 구간에서 정수 탐색으로 최적값을 찾는다.
**6. 플릿옵트 오프라인 플래너**
알고리즘 1은 CDF, λ, SLO, GPU 프로파일, 비용 비율 φ 등을 입력받아 (n*ₛ, n*ₗ, B*ₛₕₒʳₜ, γ*)를 1 ms 이내에 반환한다. 플래너는 (i) 각 풀에 대한 최소 GPU 수를 Erlang‑C 기반으로 계산하고, (ii) Bₛₕₒʳₜ에 대한 등식 (12)를 만족하는 값을 찾으며, (iii) γ에 대해 정수 스위프를 수행한다.
**7. 평가**
세 가지 실제 트레이스(Azure 2023, LMSYS multi‑turn, Agent‑Heavy)에서 실험했다. 결과:
- 동질 풀 대비 GPU 비용 절감 6.7%~82.4%
- C&R만으로 추가 절감 1.2pp(Agent‑Heavy), 15.9pp(LMSYS), 43.7pp(Azure)
- 시뮬레이터와 비교해 GPU 활용도 예측 오차 ≤ 3%
- 압축 품질 (BERTScore F1 = 0.884, ROUGE‑L = 0.856, TF‑IDF 코사인 = 0.981)
**8. 논의 및 결론**
플릿옵트는 분석‑설계‑구현을 일관되게 연결함으로써, 비용 절벽이라는 새로운 시스템 병목을 정의하고 해결한다. 기존의 사후 압축 방식보다 코‑디자인이 절대적으로 비용 효율이 높으며, M/G/c 큐 모델이 실제 GPU 프로비저닝 문제에 적용 가능함을 입증한다. 향후 연구는 LLM 기반 압축, 다중 컨텍스트 윈도우, 다양한 GPU 아키텍처 적용 등을 통해 확장성을 높일 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기