LLM을 위한 저지연 비용 효율 원격 지식 캐시 Cortex

LLM을 위한 저지연 비용 효율 원격 지식 캐시 Cortex
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Cortex는 LLM 에이전트가 원격 데이터 소스에 반복적으로 접근하면서 발생하는 지연과 비용을 줄이기 위해 설계된 의미 기반 캐시 시스템이다. 의미 요소(SE)와 의미 검색 인덱스(Seri)를 핵심 추상화로 삼아, 벡터 유사도 기반 후보 선택 뒤 경량 LLM 판별기를 통해 정확한 의미 일치를 검증한다. 비용·지연·정적성 메타데이터를 활용한 적응형 삭제 정책과 사전 가져오기 기법을 결합해 85% 이상의 히트율과 3.6배 향상된 처리량을 달성한다.

상세 분석

Cortex는 기존의 정확히 일치하는 키‑값 캐시가 LLM 에이전트의 특수한 워크로드, 즉 자연어 질의와 도구 호출 사이의 의미적 연관성을 포착하지 못한다는 문제를 해결한다. 이를 위해 두 가지 새로운 추상화인 의미 요소(SE)와 의미 검색 인덱스(Seri)를 도입한다. SE는 질의의 임베딩뿐 아니라 호출 지연, 비용, 정적성(변경 빈도) 등 운영 메타데이터를 함께 저장한다. 이러한 메타데이터는 캐시 관리 정책에서 비용‑효율성을 판단하는 핵심 근거가 된다. Seri는 1단계에서 Approximate Nearest Neighbor(ANN) 검색을 이용해 고속으로 후보 SE를 추출하고, 2단계에서 경량 LLM 기반 의미 판별기(Judge)를 통해 후보가 현재 컨텍스트와 실제 의미적으로 일치하는지를 검증한다. 판별기는 완전한 LLM보다 작은 파라미터 수와 제한된 프롬프트를 사용해 지연을 최소화하면서도 오탐을 크게 억제한다.

캐시 히트 정의도 기존의 “키 일치”에서 “의미 일치 + 메타데이터 만족”으로 확장된다. 예를 들어, 동일한 질문이라도 최신 데이터가 필요하거나 비용이 높은 API 호출을 요구하는 경우, 정적성이 낮은 SE는 히트로 인정되지 않는다. 삭제 정책은 LRU와 비용 가중치를 결합한 적응형 알고리즘으로, 정적성이 높은 오래된 SE는 보존하고, 비용이 큰 최신 SE는 빠르게 교체한다. 또한, SE의 접근 빈도와 시간적 버스트 패턴을 분석해 향후 필요할 가능성이 높은 SE를 사전에 프리패치한다.

실행 환경에서는 메인 LLM과 경량 판별기를 동일 GPU에 공동 배치하고, 우선순위 기반 스케줄러로 메인 추론 경로를 보호한다. 이를 통해 추가적인 GPU 메모리 사용을 최소화하면서도 판별기 호출 지연을 1~2ms 수준으로 억제한다. 실험 결과, 검색 워크로드에서 85% 이상의 히트율을 유지하면서 처리량이 최대 3.6배 향상되었으며, 정확도는 비캐시 기준과 차이가 없었다. 코딩 워크로드에서도 20% 정도의 처리량 증가를 기록, 의미 기반 캐시가 다양한 에이전트 작업에 적용 가능함을 입증한다.

전반적으로 Cortex는 의미 기반 캐시와 비용·지연 인식을 결합함으로써, 원격 데이터 접근이 병목이 되는 LLM 에이전트 시스템에 실용적인 해결책을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기