멀티에이전트 LLM 협업을 위한 KV 캐시 재활용 기법, RelayCaching

멀티에이전트 LLM 협업을 위한 KV 캐시 재활용 기법, RelayCaching
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

RelayCaching은 다중 에이전트 LLM 파이프라인에서 이전 에이전트의 디코딩 단계 KV 캐시를 그대로 재사용하고, 프리픽스 차이에 의해 발생하는 소수의 레이어·토큰만 선택적으로 재계산함으로써 80% 이상의 캐시 재사용률과 최대 4.7배 TTFT 감소를 달성한다. 정확도 손실은 거의 없으며, 학습이 필요 없는 추론 전용 방법이다.

상세 분석

본 논문은 멀티에이전트 LLM 시스템에서 발생하는 “프리픽스 변이” 문제를 핵심 병목으로 규정한다. 에이전트 간에 공유되는 텍스트(예: API 스펙, 코드, 리뷰 결과 등)는 각 에이전트의 프리픽스가 달라짐에도 불구하고 동일한 토큰 시퀀스로 존재한다. 기존의 프리픽스 캐시 방식은 위치 정렬이 필요해 이러한 상황에 적용하기 어렵고, 프리컴퓨팅 캐시는 정적 문서에만 유효해 동적 생성 콘텐츠에는 부적합하다.

RelayCaching은 “디코딩 KV 캐시와 프리필 KV 캐시 사이의 고유한 정합성”을 실험적으로 입증한다. ① 매크로 레벨에서는 키(key)와 값(value) 모두 코사인 유사도가 0.9 이상으로 높은 일관성을 보이며, 특히 값 코사인 유사도가 가장 큰 변동 요인임을 확인한다. ② 레이어별 분석에서는 중간 레이어에서 유사도가 최소가 되는 U‑shaped 패턴이 나타나, 이 구간이 정확도 저하의 주요 원인임을 밝혀낸다. ③ 토큰 수준에서는 편차가 희소하게 발생하고, 한 레이어에서 높은 편차가 나타난 토큰은 인접 레이어에서도 지속되는 높은 상관관계를 보인다.

이러한 관찰을 바탕으로 RelayCaching은 두 단계로 구성된다. 첫 번째는 “레이어‑레인지 프로파일러”로, U‑shaped 프로파일을 이용해 재계산이 필요한 레이어 구간


댓글 및 학술 토론

Loading comments...

의견 남기기