에이전트 배치 추론을 위한 고속 캐시 혼잡 제어

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 에이전트형 워크로드에서 GPU KV 캐시가 중간 단계에서 급격히 효율을 잃는 “middle‑phase thrashing” 현상을 규명하고, 네트워크 혼잡 제어 아이디어를 차용한 AIMD 기반 에이전트 수준 입장 제어 시스템 CONCUR를 제안한다. CONCUR는 런타임 캐시 압력 신호를 이용해 동시에 활성화되는 에이전트 수를 동적으로 조절함으로써 캐시 오버커밋을 방지하고, Qwen3‑32B와 DeepSeek‑V3 모델에서 각각 최대 4.09배와 1.90배의 처리량 향상을 달성한다.

상세 분석

본 연구는 최근 LLM을 에이전트로 활용하는 경우, 각 에이전트가 외부 도구 호출·응답을 반복하면서 컨텍스트가 지속적으로 누적되고, 이에 따라 KV 캐시 사용량이 시간에 따라 단조롭게 증가한다는 점을 지적한다. 기존의 LLM 서빙 엔진은 프리픽스 캐싱과 LRU 기반 캐시 교체 정책을 사용해 짧은 대화형 요청에서는 높은 캐시 히트율을 유지하지만, 에이전트가 비동기적으로 일시 정지·재개되는 상황에서는 “비활성” 캐시 엔트리가 빠르게 LRU 리스트 뒤로 밀려 evict 되고, 재개 시 전체 프리픽스를 재계산하거나 CPU 메모리로 옮겨야 하는 비용이 급증한다. 이러한 현상이 누적되면 GPU 메모리 사용량은 포화 상태를 유지하면서도 히트율이 급격히 떨어지는 중간 단계가 길게 지속된다. 논문은 이를 “middle‑phase thrashing”이라 명명하고, 기존의 메모리 용량 한계에 의한 thrashing과는 달리, 자원 효율이 급격히 저하되는 현상임을 실험 데이터(그림 3)로 입증한다.

문제 해결을 위해 저자들은 네트워크 혼잡 제어에서 영감을 얻어, KV 캐시를 “공유 대역폭”에 비유하고, 에이전트 수준에서 입장을 제어하는 메커니즘을 설계한다. 핵심 아이디어는 에이전트 단위로 동시 실행 수를 제한하고, 캐시 압력(예: 사용량 비율, 히트율 저하) 신호를 피드백으로 받아 AIMD(가산 증가·곱셈 감소) 알고리즘을 적용해 동적으로 조정하는 것이다. 구체적으로, CONCUR는 매 스텝마다 현재 KV 캐시 사용률과 히트율을 측정하고, 사용률이 임계값을 초과하거나 히트율이 급락하면 현재 허용된 에이전트 수를 곱셈적으로 감소시킨다. 반대로 상황이 안정되면 가산적으로 증가시켜 시스템 자원을 최대한 활용한다. 이 제어 루프는 기존 서빙 엔진에 비침투적으로 삽입될 수 있어, 프리픽스 트리 구조, CPU 오프로드 등 기존 최적화와 호환된다.

실험에서는 Qwen3‑32B(32B 파라미터)와 DeepSeek‑V3 모델을 대상으로, 에이전트 수를 1~64까지 변화시키며 처리량, 평균 지연, 캐시 히트율을 측정했다. 결과는 CONCUR 적용 시 중간 단계에서 캐시 히트율이 70% 이상 유지되고, 전체 처리량이 최대 4.09배(Qwen3‑32B)·1.90배(DeepSeek‑V3) 향상됨을 보여준다. 또한, 기존 LRU 기반만 사용했을 때는 에이전트 수가 증가할수록 처리량이 급감하는 반면, CONCUR는 안정적인 스케일링을 달성한다.

이 논문은 에이전트형 LLM 서비스에서 메모리 관리가 단순히 “용량” 문제가 아니라 “동시성·비동기성”에 의해 야기되는 복합적인 자원 경쟁임을 강조한다. 따라서 앞으로의 서빙 시스템은 요청 수준이 아닌 에이전트 수준의 스케줄링과, 실시간 피드백 기반의 자원 제어 메커니즘을 기본 설계 원칙으로 채택해야 할 필요가 있다.

에이전트 배치 추론을 위한 고속 캐시 혼잡 제어

초록

상세 분석

댓글 및 학술 토론

의견 남기기