플릿옵트: 비용 최소화를 위한 이중 풀 설계와 압축 라우팅 구현

플릿옵트는 워크로드의 프롬프트 길이 CDF와 P99 TTFT 목표를 입력으로, M/G/c 큐 모델을 기반으로 최소 비용의 두 풀(단기·장기) GPU 구성을 분석적으로 도출한다. 경계 토큰 B*에서 발생하는 8배~42배의 비용 절벽을 완화하기 위해, 게이트웨이 레이어에서 경계 근처 요청을 추출 압축(C&R)하여 효과적인 라우팅 경계를 γ·B* 로 이동시킨다. 실험 결과, 동질 풀 대비 GPU 비용을 6%~82% 절감하고, 압축 라우팅만으로도 추가…

저자: Huamin Chen, Xunzhuo Liu, Yuhan Liu

**1. 서론** LLM 서비스는 128K 토큰 이상의 컨텍스트 윈도우를 지원하지만, 실제 요청의 80%가 2K 토큰 이하이다. 이로 인해 KV‑캐시가 대부분 비활성 상태인 채로 GPU가 할당돼 비용 효율이 크게 떨어진다. 기존의 풀 라우팅(pool routing) 기법은 요청을 짧은 컨텍스트 풀(Pₛ)과 긴 컨텍스트 풀(Pₗ)로 나누어 비용을 절감했지만, 경계 Bₛₕₒʳₜ 바로 위의 토큰 하나만 초과하면 장기 풀의 슬롯당 처리량이 급감하는 ‘비용 절벽(cost cliff)’이 존재한다. **2. 배경** - **2.1 풀 라우팅 기본**: 요청의 총 토큰 Lₜₒₜₐₗ을 기준으로 Bₛₕₒʳₜ 이하이면 Pₛ, 초과이면 Pₗ에 라우팅한다. - **2.2 KV‑캐시와 비용 절벽**: Llama‑3‑70B fp16 기준 KV‑캐시 1 토큰당 320 KB. 64K 토큰 슬롯은 약 20 GB를 차지해 GPU당 16개의 슬롯만 가능(ρ = 8~42). 따라서 Bₛₕₒʳₜ+1 토큰 요청은 8~42배 더 많은 GPU 자원을 소모한다. **3. 분석 모델** 각 풀을 M/G/c 큐로 모델링한다. 도착률 λ, 라우팅 비율 α, β, 압축 성공률 p_c를 정의하고, 서비스 시간은 배치 반복 시간 t_iter = W + H·n_slots 로 계산한다. Erlang‑C와 Kimura 근사를 통해 P99 대기시간 W₉₉를 구하고, SLO(Tₛₗₒ) 제약을 만족하도록 최소 GPU 수 n*ₛ, n*ₗ을 정수 최적화한다. **4. 최적 풀 구성** - **4.1 풀당 GPU 수**: 각 풀은 독립적인 M/G/c 문제이므로, 이용률 상한 ρ_max = 0.85를 적용해 n* = min{c | W₉₉ ≤ Tₛₗₒ,eff}. - **4.2 최적 경계 B*ₛₕₒʳₜ**: 비용 함수 C = c_s nₛ + c_l nₗ을 Bₛₕₒʳₜ에 대해 미분하면 “동등한 한계 GPU 비용” 조건이 도출된다. 즉, 추가 요청을 단기 풀에 라우팅했을 때 발생하는 비용 증가와 장기 풀에서 제거했을 때 절감되는 비용이 동일해야 한다. - **4.3 비용 절벽 문제**: B*ₛₕₒʳₜ 근처의 경계선(band) 트래픽이 전체의 4.6%~11.2%를 차지하고, 이는 장기 풀에 투입될 경우 전체 비용의 43%~76%를 차지한다. 따라서 B*ₛₕₒʳₜ만으로는 실제 비용 최소화를 달성하기 어렵다. **5. Compress‑and‑Route (C&R) 구현** C&R는 게이트웨이 레이어에서 경계선 요청을 추출 압축한다. 압축 후 토큰 예산 T_c = Bₛₕₒʳₜ − L_out 으로 설정해 KV‑오버플로를 방지한다. 압축 파이프라인은: (1) 문장 분할, (2) TextRank·Position·TF‑IDF·Novelty 가중치 합산, (3) 점수 기반 문장 선택, (4) 토큰 제한 도달 시 종료. 압축 시간은 2~7 ms, 평균 오버헤드 ≤ 0.58 ms이며, 프로즈와 RAG에 대해 100% 압축 성공률(p_c = 1.0)을 보인다. 압축 후 라우팅 경계는 γ·Bₛₕₒʳₜ 로 이동하며, γ는 플래너가 1.0~2.0 구간에서 정수 탐색으로 최적값을 찾는다. **6. 플릿옵트 오프라인 플래너** 알고리즘 1은 CDF, λ, SLO, GPU 프로파일, 비용 비율 φ 등을 입력받아 (n*ₛ, n*ₗ, B*ₛₕₒʳₜ, γ*)를 1 ms 이내에 반환한다. 플래너는 (i) 각 풀에 대한 최소 GPU 수를 Erlang‑C 기반으로 계산하고, (ii) Bₛₕₒʳₜ에 대한 등식 (12)를 만족하는 값을 찾으며, (iii) γ에 대해 정수 스위프를 수행한다. **7. 평가** 세 가지 실제 트레이스(Azure 2023, LMSYS multi‑turn, Agent‑Heavy)에서 실험했다. 결과: - 동질 풀 대비 GPU 비용 절감 6.7%~82.4% - C&R만으로 추가 절감 1.2pp(Agent‑Heavy), 15.9pp(LMSYS), 43.7pp(Azure) - 시뮬레이터와 비교해 GPU 활용도 예측 오차 ≤ 3% - 압축 품질 (BERTScore F1 = 0.884, ROUGE‑L = 0.856, TF‑IDF 코사인 = 0.981) **8. 논의 및 결론** 플릿옵트는 분석‑설계‑구현을 일관되게 연결함으로써, 비용 절벽이라는 새로운 시스템 병목을 정의하고 해결한다. 기존의 사후 압축 방식보다 코‑디자인이 절대적으로 비용 효율이 높으며, M/G/c 큐 모델이 실제 GPU 프로비저닝 문제에 적용 가능함을 입증한다. 향후 연구는 LLM 기반 압축, 다중 컨텍스트 윈도우, 다양한 GPU 아키텍처 적용 등을 통해 확장성을 높일 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기