멀티에이전트 LLM 시스템을 위한 토큰 일관성: MESI 캐시 프로토콜 적용

본 논문은 멀티에이전트 대형 언어 모델(LLM) 오케스트레이션에서 발생하는 토큰 중복 전송 문제를 근본적으로 해결하고자 한다. 저자는 현재 대부분의 프레임워크가 “전체 상태 재전송(full‑state rebroadcast)” 방식을 채택하고 있어, 에이전트 수 n, 추론 단계 수 S, 공유 아티팩트 크기 |D|에 대해 토큰 비용이 O(n·S·|D|) 로 급증한다는 점을 지적한다. 이를 “broadcast‑induced triply‑multiplicative overhead”라 명명하고, 이 병목이 구조적 선택이며 필연적 현상이 아니라는 가설을 세운다. 핵심 아이디어는 이 현상이 1970‑80년대 하드웨어 설계에서 해결된 캐시 일관성 문제와 동형(isomorphic)이라는 점이다. MESI(Modified, Exclusive, Shared, Invalid) 프로토콜은 각 캐시 라인에 네 가지 안정 상태를 부여하고, 쓰기 시 전체 라인을 무효화(invalidate)하는 대신 읽기 시점에만 최신 데이터를 가져오게 함으로써 메모리 버스 트래픽을 크게 줄인다. 논문은 이 메커니즘을 LLM 에이전트와 공유 아티팩트에 그대로 적용할 수 있음을 보인다. 이를 위해 저자는 “Artifact Coherence System”(ACS)이라는 형식적 모델을 정의한다. ACS는 에이전트 집합 A, 아티팩트 집합 D, 상태 집합 Σ={M,E,S,I}, 전이 함수 δ, 상태 매핑 α, 유효성 판정 T 로 구성된 6‑튜플이다. 여기서 α(a,d)는 에이전트 a가 아티팩트 d에 대해 현재 어떤 MESI‑유사 상태에 있는지를 나타낸다. 상태 I(Invalid)에서는 해당 아티팩트를 사용하기 전에 “coherence fill”(fetch) 절차가 필요하고, M/E/S 상태에서는 바로 사용 가능하다. 논문은 이 모델을 바탕으로 “Token Coherence Theorem”을 증명한다. 정리는 S > n + W(d_i) (W(d_i)는 아티팩트 d_i의 총 쓰기 횟수)일 때, Lazy Invalidation 전략이 토큰 비용을 최소 S/(n+W(d_i)) 배만큼 감소시킨다고 제시한다. 즉, 비용 복잡도가 O(n·S·|D|) → O((n+W)·|D|) 로 전환된다. 이때 절감 비율은 아티팩트 변동성 V = W/S 에 따라 달라지며, V가 낮을수록 절감 효과가 크다. 하지만 LLM 에이전트는 매 추론 단계마다 전체 컨텍스트를 소비한다는 “always‑read objection”이 존재한다. 저자는 이를 반박하기 위해 현대 멀티에이전트 시스템이 실제로는 네 가지 조건부 접근 패턴을 사용한다는 점을 제시한다. 첫째, 도구 기반 검색(tool‑based retrieval)에서는 프롬프트에 아티팩트 식별자만 삽입하고 실제 내용은 필요 시 호출한다. 둘째, Model Context Protocol(MCP)에서는 URI 형태로 자원을 참조하고, 호출 시에만 토큰이 소모된다. 셋째, 벡터 스토어 검색에서는 상위 k개 조각만 삽입해 전체 크기 대비 토큰 사용을 크게 줄인다. 넷째, 제공자 측 프롬프트 캐시(예: OpenAI, Anthropic)는 동일 프리픽스가 반복될 경우 캐시 히트가 발생해 실제 전송 토큰이 거의 없다. 이러한 패턴을 정식으로 R(a,s) ⊂ D 로 모델링하고, Pr

멀티에이전트 LLM 시스템을 위한 토큰 일관성: MESI 캐시 프로토콜 적용

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기