멀티에이전트 LLM 시스템을 위한 토큰 일관성: MESI 캐시 프로토콜 적용

본 논문은 대규모 멀티에이전트 LLM 오케스트레이션에서 발생하는 토큰 중복 전송 비용을, 하드웨어 캐시 일관성 프로토콜인 MESI와의 형식적 대응을 통해 크게 감소시키는 방법을 제시한다. Artifact Coherence System(ACS)을 정의하고, Lazy Invalidation 기반 토큰 절감 정리를 증명했으며, TLA+ 검증을 통해 단일 작성자 안전성, 단조 버전 관리, 제한된 스테일스(스텝) 보장을 확인한다. 시뮬레이션 결과는 이론…

저자: Vladyslav Parakhin

본 논문은 멀티에이전트 대형 언어 모델(LLM) 오케스트레이션에서 발생하는 토큰 중복 전송 문제를 근본적으로 해결하고자 한다. 저자는 현재 대부분의 프레임워크가 “전체 상태 재전송(full‑state rebroadcast)” 방식을 채택하고 있어, 에이전트 수 n, 추론 단계 수 S, 공유 아티팩트 크기 |D|에 대해 토큰 비용이 O(n·S·|D|) 로 급증한다는 점을 지적한다. 이를 “broadcast‑induced triply‑multiplicative overhead”라 명명하고, 이 병목이 구조적 선택이며 필연적 현상이 아니라는 가설을 세운다. 핵심 아이디어는 이 현상이 1970‑80년대 하드웨어 설계에서 해결된 캐시 일관성 문제와 동형(isomorphic)이라는 점이다. MESI(Modified, Exclusive, Shared, Invalid) 프로토콜은 각 캐시 라인에 네 가지 안정 상태를 부여하고, 쓰기 시 전체 라인을 무효화(invalidate)하는 대신 읽기 시점에만 최신 데이터를 가져오게 함으로써 메모리 버스 트래픽을 크게 줄인다. 논문은 이 메커니즘을 LLM 에이전트와 공유 아티팩트에 그대로 적용할 수 있음을 보인다. 이를 위해 저자는 “Artifact Coherence System”(ACS)이라는 형식적 모델을 정의한다. ACS는 에이전트 집합 A, 아티팩트 집합 D, 상태 집합 Σ={M,E,S,I}, 전이 함수 δ, 상태 매핑 α, 유효성 판정 T 로 구성된 6‑튜플이다. 여기서 α(a,d)는 에이전트 a가 아티팩트 d에 대해 현재 어떤 MESI‑유사 상태에 있는지를 나타낸다. 상태 I(Invalid)에서는 해당 아티팩트를 사용하기 전에 “coherence fill”(fetch) 절차가 필요하고, M/E/S 상태에서는 바로 사용 가능하다. 논문은 이 모델을 바탕으로 “Token Coherence Theorem”을 증명한다. 정리는 S > n + W(d_i) (W(d_i)는 아티팩트 d_i의 총 쓰기 횟수)일 때, Lazy Invalidation 전략이 토큰 비용을 최소 S/(n+W(d_i)) 배만큼 감소시킨다고 제시한다. 즉, 비용 복잡도가 O(n·S·|D|) → O((n+W)·|D|) 로 전환된다. 이때 절감 비율은 아티팩트 변동성 V = W/S 에 따라 달라지며, V가 낮을수록 절감 효과가 크다. 하지만 LLM 에이전트는 매 추론 단계마다 전체 컨텍스트를 소비한다는 “always‑read objection”이 존재한다. 저자는 이를 반박하기 위해 현대 멀티에이전트 시스템이 실제로는 네 가지 조건부 접근 패턴을 사용한다는 점을 제시한다. 첫째, 도구 기반 검색(tool‑based retrieval)에서는 프롬프트에 아티팩트 식별자만 삽입하고 실제 내용은 필요 시 호출한다. 둘째, Model Context Protocol(MCP)에서는 URI 형태로 자원을 참조하고, 호출 시에만 토큰이 소모된다. 셋째, 벡터 스토어 검색에서는 상위 k개 조각만 삽입해 전체 크기 대비 토큰 사용을 크게 줄인다. 넷째, 제공자 측 프롬프트 캐시(예: OpenAI, Anthropic)는 동일 프리픽스가 반복될 경우 캐시 히트가 발생해 실제 전송 토큰이 거의 없다. 이러한 패턴을 정식으로 R(a,s) ⊂ D 로 모델링하고, Pr

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기