지연 최소화와 KV‑캐시 재사용을 동시에 잡는 GORGO 로드밸런서

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

GORGO는 지역별 GPU 클러스터에서 LLM 추론 시 프리픽스 KV‑캐시 재사용과 인터‑리전 네트워크 지연을 동시에 고려해 요청을 라우팅한다. 세 가지 신호(프리픽스 캐시 적중률, RTT, 현재 큐 상태)를 기반으로 비용 모델을 만든 뒤, 분산 로드밸런서와 중앙 프록시 두 형태로 구현한다. 실험 결과, GORGO는 P99 TTFT를 크게 낮추고 중앙 프록시 버전은 평균 TTFT를 2.5배 가속화한다.

상세 분석

본 논문은 대규모 언어 모델(LLM) 추론 서비스를 지리적으로 분산된 GPU 클러스터에 배치할 때, 사용자 경험을 좌우하는 핵심 지표인 Time‑to‑First‑Token(TTFT)을 최소화하는 새로운 라우팅 정책을 제안한다. 기존 연구는 KV‑Cache(키‑값 캐시) 재사용을 통해 프리픽스(prefixed) 입력에 대한 프리필(pre‑fill) 연산을 건너뛰는 방법에 집중했으며, 네트워크 지연은 부수적인 비용으로 취급했다. 그러나 실제 운영 환경에서는 인터‑리전 RTT가 수백 밀리초에 달할 수 있어, 캐시 적중률이 높더라도 원격 리전으로의 포워딩이 전체 TTFT를 악화시킬 위험이 있다.

GORGO는 이러한 트레이드오프를 정량화하기 위해 세 가지 실시간 신호를 수집한다. 첫째, 각 리전의 프리픽스 캐시 적중률을 추정해 남은 프리필 토큰 수와 토큰당 프리필 시간(tp)을 곱해 ‘프리필 비용’을 계산한다. 둘째, 로드밸런서 간 RTT를 주기적으로 측정해 ‘네트워크 지연 비용’을 확보한다. 셋째, 현재 실행 중인 배치와 대기열 길이를 모니터링해 ‘큐 대기 비용’을 추정한다. 이 세 비용을 가중치(tp, q̂s)와 함께 선형 합산 형태의 비용 모델에 입력한다:

Cost(region) = NetLatency(peer) + tp·PreFillCost(peer+local) + q̂s·QueueWaitTime(local)

모델은 각 요청마다 모든 후보 리전을 평가해 최소 비용을 갖는 리전을 선택한다. 로컬 리전이 즉시 배치에 수용 가능하면 포워딩을 생략하고, 그렇지 않을 경우 네트워크 비용과 캐시 이득을 비교해 원격 리전으로 전달한다.

아키텍처는 분산형 로드밸런서와 중앙 프록시 두 형태로 구현된다. 각 로드밸런서는 라디스 트라이(radix‑trie) 기반 프리픽스 인덱스를 유지해 KV‑Cache 위치를 추정하고, 주기적으로 RTT와 큐 상태를 피어에게 전파한다. 중앙 프록시는 모든 로드밸런서의 메타데이터를 집계해 전역적인 의사결정을 수행한다.

실험은 미국 서부, 독일, 이스라엘 세 리전을 8×A100 GPU 노드로 구성하고, Mistral‑7B‑Instruct‑v0.3 모델을 사용해 진행했다. 워크로드는 WildChat 대화 데이터와 GuideLLM의 합성 트래픽을 혼합해, 프리픽스 중복이 존재하는 상황과 Poisson, Sweep, Concurrent 등 다양한 요청 패턴을 적용했다. 주요 결과는 다음과 같다.

P99 TTFT 감소 – GORGO는 네트워크 비용을 고려한 라우팅 덕분에 기존 프리픽스‑우선 정책 대비 30 % 이상 P99 TTFT를 낮추었다.
중앙 프록시 버전의 가속 – GORGO‑proxy는 동기화 오버헤드를 최소화해 평균 TTFT를 2.5배 가속화했으며, 특히 높은 부하 상황에서 큐 대기시간이 급증하는 현상을 억제했다.
로드 밸런싱 효율성 – 동일한 총 처리량(throughput) 하에서 GORGO는 최소한의 요청 재전송을 유지하면서도 각 리전의 GPU 활용도를 균등하게 유지했다.

한계점으로는 (i) 프리픽스 적중률을 정확히 예측하기 위한 인덱스 유지 비용이 리전 수가 늘어날수록 증가하고, (ii) RTT 측정이 변동성이 큰 네트워크 환경에서는 비용 모델의 안정성이 떨어질 수 있다. 또한, 현재 구현은 KV‑Cache 자체를 전송하지 않으므로, 프리픽스가 완전히 일치하지 않을 경우 여전히 프리필 연산이 발생한다.

향후 연구 방향은 (1) 프리픽스 유사도 기반의 확률적 캐시 예측 모델을 도입해 비용 모델을 정교화하고, (2) 멀티‑클라우드 환경에서 비용(예: 데이터 전송 비용)까지 포함한 다목적 최적화를 수행하는 것이다.

지연 최소화와 KV‑캐시 재사용을 동시에 잡는 GORGO 로드밸런서

초록

상세 분석

댓글 및 학술 토론

의견 남기기