에이전트 서빙 혁신: 소비자급 GPU에서 효율적인 에이전트 AI 서비스 구현

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 소형 언어 모델(SLM)을 단일 소비자급 GPU에서 다중 에이전트가 동시에 사용할 때 발생하는 ‘프리필‑디코드’ 자원 경쟁 문제를 해결한다. 요청을 ‘콜드 프리필’, ‘리쥬메 프리필’, ‘짧은 디코드’로 구분하고, 디코드 단계에 전용 SM을 할당·예산 제어하는 TPOT‑드리븐 스케줄러와 CUDA Green Context 기반의 경량 파티셔닝을 결합한 AgentServe 시스템을 제안한다. 실험 결과, 기존 vLLM·SGLang·DistServe 등 대비 TTFT 2.8배, TPOT 2.7배 향상하면서 지연 안정성을 크게 개선한다.

상세 분석

AgentServe 논문은 최근 AI 에이전트가 “짧은 추론‑행동 루프”를 반복하며 외부 도구 호출을 수행하는 워크로드가 기존 챗봇과 근본적으로 다르다는 점을 강조한다. 에이전트 세션은 (1) 긴 시스템 프롬프트를 처리하는 콜드 프리필, (2) 도구 출력 등을 기존 KV 캐시에 추가하는 리쥬메 프리필, (3) 구조화된 짧은 토큰을 생성하는 디코드 단계로 구성된다. 콜드 프리필은 GPU 메모리와 SM을 장시간 독점해 디코드 흐름을 차단하고, 이는 TTFT와 TPOT에 급격한 스파이크를 일으킨다. 기존 PD(Pre‑fill/Decode) 분리 기법은 다중 GPU 환경에서 KV 전송 비용을 분산시키지만, 단일 GPU에서는 프로세스 간 동기화와 메모리 복제 오버헤드가 여전히 존재한다. 또한, 챗봇 중심 설계는 디코드가 길어 chunked‑prefill이 효과적이지만, 에이전트는 디코드가 1~5 토큰 수준으로 짧아 동일 기법이 토큰 흐름을 방해한다.

논문은 세 가지 핵심 설계를 제시한다. 첫째, Phase‑aware Classification으로 들어오는 요청을 위 세 종류로 즉시 구분한다. 둘째, TPOT‑driven Scheduler는 디코드 단계에 최소 SM 비율을 보장하고, 남은 SM을 리쥬메 프리필에 ‘동적 예산’ 형태로 할당한다. 예산은 실시간 TPOT 측정값을 기반으로 조정되며, 디코드 지연이 감지되면 즉시 프리필 예산을 축소해 디코드에 더 많은 SM을 재분배한다. 셋째, CUDA Green Context 슬롯을 미리 할당해 프리필과 디코드가 동일 엔진 내에서 메모리 충돌 없이 독립적으로 실행되도록 한다. Green Context는 CUDA 스트림과 메모리 풀을 사전 바인딩해 KV 캐시 복제 없이도 컨텍스트 전환을 가능하게 하며, 공유 메모리 기반의 라이트웨이트 코디네이터가 요청 간 동기화를 담당한다.

성능 평가에서는 Qwen2.5‑7B와 Qwen2.5‑3B 모델을 RTX 5090, RTX A5000 등 여러 소비자 GPU에 배포하였다. 실험 시 2~4개의 에이전트가 동시에 요청을 발생시켰으며, AgentServe는 기존 vLLM, SGLang, DistServe 대비 TTFT를 최대 2.8배, TPOT를 2.7배 단축했다. 특히 디코드 단계의 TPOT 변동성이 30 ms 이하로 안정화돼, 도구 호출 간 지연이 거의 없었다. SM 점유율 분석에서도 디코드가 20 % 정도의 SM만 사용해도 높은 토큰 처리량을 유지함을 확인했으며, 남은 SM을 프리필에 재활용함으로써 전체 GPU 활용률을 85 % 이상 유지했다.

이 논문은 알고리즘‑시스템 공동 설계가 단일 GPU 환경에서 에이전트 워크로드를 효율적으로 다루는 핵심임을 입증한다. 프리필‑디코드 불균형을 정량화하고, TPOT 기반 동적 스케줄링과 CUDA 레벨 파티셔닝을 결합한 접근법은 향후 로컬 AI 에이전트 서비스, 로봇 제어, 엣지 디바이스 등에 적용 가능성이 크다. 다만, 현재는 SLM(≤7 B) 모델에 국한되며, 더 큰 모델이나 멀티‑GPU 클러스터 환경에서는 추가 연구가 필요하다.

에이전트 서빙 혁신: 소비자급 GPU에서 효율적인 에이전트 AI 서비스 구현

초록

상세 분석

댓글 및 학술 토론

의견 남기기