예측 기반 다중 LLM 서비스, WarmServe로 GPU 사전 가열 혁신

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

WarmServe는 장기적인 워크로드 예측을 활용해 여러 LLM 모델의 파라미터를 미리 GPU에 적재하는 ‘범용 GPU 워커’를 도입한다. 모델 배치 시 ‘evict‑aware’ 전략으로 사전 가열 간섭을 최소화하고, KV 캐시와 파라미터를 동시에 관리하는 무오버헤드 메모리 스위칭을 구현한다. 실험 결과 TTFT가 최대 50.8배 개선되고, 처리량이 기존 GPU‑공유 시스템 대비 2.5배 증가한다.

상세 분석

본 논문은 대규모 언어 모델(LLM) 서비스 환경에서 발생하는 ‘cold‑start’ 문제, 즉 첫 토큰을 생성하기까지의 지연(TTFT)을 근본적으로 감소시키기 위한 새로운 접근법을 제시한다. 기존의 자동 스케일링 방식은 요청 폭증 시 모델 인스턴스를 실시간으로 로드해야 하므로 초기 지연이 크게 발생하고, GPU 공유 방식은 KV 캐시 공간을 여러 모델이 경쟁하게 만들어 디코딩 효율을 저하한다. WarmServe는 이러한 한계를 ‘미래 워크로드 예측’이라는 전제 하에 해결한다.

첫 번째 핵심 아이디어는 **범용 GPU 워커(universal GPU worker)**이다. 현대 LLM 배포에서는 모델 파라미터가 전체 GPU 메모리의 5~30% 정도만 차지하고, 나머지는 KV 캐시와 임시 텐서가 차지한다는 점을 이용한다. 따라서 하나의 GPU에 여러 모델의 파라미터를 동시에 적재해 두고, 필요 시 빠르게 해당 파라미터만 교체하거나 활성화함으로써 ‘one‑for‑many’ 사전 가열을 구현한다. 이때 파라미터 로딩은 전체 모델이 아닌 앞부분 레이어만 미리 적재하고, 나머지는 실제 추론 중에 겹쳐서 로드하도록 설계해 로딩 시간을 최소화한다.

두 번째로 제시된 evict‑aware 모델 배치 전략은 사전 가열 간섭을 방지한다. LLM은 다중 GPU에 걸쳐 파라미터가 분산되므로, 하나의 GPU에 두 모델이 부분적으로 겹치면 어느 하나가 evict될 경우 전체 모델이 동시에 비활성화된다. 논문은 ‘GPU 집합이 완전히 포함 관계에 있을 때만 공유’를 허용함으로써, 모델 간 간섭을 최소화하고 고우선순위 모델은 별도 GPU에 격리한다. 이 전략은 사전 가열 성공률을 크게 높이며, 클러스터 전체의 메모리 파편화를 방지한다.

세 번째 기여는 zero‑overhead 메모리 스위칭이다. GPU 메모리는 파라미터, KV 캐시, 그리고 사전 가열 중인 다른 모델 파라미터가 동시에 존재한다. 기존 방식은 메모리 복사나 페이지 교체에 비용이 발생했지만, WarmServe는 메모리 블록을 메타데이터 수준에서 재배치하고, 필요 시 포인터만 교체하는 방식으로 복사 비용을 제거한다. 이를 통해 GPU가 ‘idle → universal → dedicated → idle’ 순환하면서도 메모리 관리 오버헤드가 거의 없으며, 실시간 서비스에 미치는 영향을 최소화한다.

워크로드 예측 측면에서는 5분 윈도우 기준 평균·최대 동시 요청 수를 계절성 보정 모델로 예측한다. 실험에 사용된 AzureConv 트레이스에서는 93% 수준의 정확도를 달성했으며, 이는 사전 가열에 필요한 인스턴스 수를 과잉 할당 없이 정확히 산정할 수 있음을 의미한다. 예측 정확도가 높은 만큼, 사전 가열된 모델이 실제 폭증 시점에 바로 활성화되어 TTFT를 크게 단축한다.

성능 평가에서는 두 가지 베이스라인을 사용한다. 첫 번째는 최신 자동 스케일링 시스템(autoscaling‑based)이며, 두 번째는 GPU 공유 기반 시스템이다. WarmServe는 TTFT에서 최대 50.8배 개선을 보였고, 전체 처리량(throughput)에서는 2.5배 향상을 기록했다. 또한 디코딩 단계의 TPOT(Time‑Per‑Output‑Token)에는 거의 영향을 주지 않아, 사전 가열이 추론 속도에 부정적 영향을 미치지 않음을 확인했다.

종합적으로 WarmServe는 예측 기반 사전 가열, 간섭 최소화 배치, 무오버헤드 메모리 관리라는 세 축을 통해 다중 LLM 서비스 환경에서 GPU 활용 효율과 사용자 지각 지연을 동시에 최적화한다. 이는 향후 클라우드 기반 LLM 서비스가 비용 효율성을 유지하면서도 실시간 응답성을 확보하는 데 중요한 설계 패러다임을 제시한다.

예측 기반 다중 LLM 서비스, WarmServe로 GPU 사전 가열 혁신

초록

상세 분석

댓글 및 학술 토론

의견 남기기