MonoScale: 다중 에이전트 시스템을 안정적으로 확장하는 방법

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MonoScale은 새로운 에이전트를 도입할 때 전용 “친숙화” 작업을 자동 생성하고, 성공·실패 경험을 자연어 메모리로 정제해 라우터에 주입함으로써, 에이전트 풀 규모가 커져도 성능이 감소하지 않도록 보장한다. 이론적으로는 컨텍스추얼 밴딧과 신뢰 구역 업데이트를 이용해 각 확장 단계에서 비감소(monotonic) 성능을 증명한다. GAIA와 Humanity’s Last Exam 실험에서 기존 라우터 대비 안정적인 성능 향상을 입증하였다.

상세 분석

본 논문은 LLM 기반 다중 에이전트 시스템(MAS)의 라우터가 새로운 에이전트를 “콜드 스타트”할 때 발생하는 성능 붕괴 문제를 핵심 과제로 정의한다. 기존 연구는 정적인 에이전트 풀을 전제로 라우팅 정책을 최적화했지만, 실제 서비스에서는 플러그인·툴·전문가 에이전트를 지속적으로 추가해야 한다. 이러한 동적 확장은 액션 공간이 확장(Y_k‑1 ⊆ Y_k)되는 동시에, 라우터가 새 에이전트의 능력·제한·오류 패턴을 모르는 상태에서 잘못된 라우팅을 할 위험이 급증한다.

MonoScale은 두 단계의 프레임워크로 이 문제에 접근한다. 첫 번째 단계는 에이전트‑조건화 친숙화 작업 생성이다. 새 에이전트 a_k의 “에이전트 카드”(능력, 인터페이스, 입력·출력 형식 등)를 기반으로, 해당 에이전트가 강점으로 발휘될 상황과 취약점이 드러날 상황을 모두 포함하는 소규모 작업 집합을 자동 합성한다. 여기서 사용된 합성 기법은 기존 오픈월드 트래젝터리 생성 모델을 변형해, 목표 기능(예: 코드 실행, 검색, 플러그인 호출)과 실패 시나리오(타임아웃, 형식 오류)를 명시적으로 포함한다.

두 번째 단계는 증거 기반 메모리 업데이트이다. 라우터는 고정된 LLM(예: Qwen‑3‑30B‑A3B)이며, 입력 x와 함께 텍스트 버퍼 m을 프롬프트에 삽입해 정책을 조정한다. 친숙화 작업을 실행하면서 성공·실패 로그를 수집하고, 이를 “라우팅 원칙”(예: “검색 에이전트는 2초 이내 응답이 없으면 사용 금지”, “코드 실행 에이전트는 JSON 형식 출력 필요”) 형태의 자연어 문장으로 압축한다. 이러한 원칙은 메모리 후보 집합 C에 저장되고, 신뢰 구역(trust‑region) 최적화(π↑k‑1 대비 KL 제한)으로 가장 안전하면서도 성능 향상이 기대되는 업데이트를 선택한다.

이론적 기여는 컨텍스추얼 밴딧 모델링이다. 단계 k에서 라우터 정책 π_k는 메모리 m에 의해 결정되며, 목표는 J_k(π_k) ≥ J_k(π↑k‑1) 를 만족시키는 것이다. 여기서 π↑k‑1은 기존 정책을 새로운 액션 공간에 보수적으로 “리프트”한 형태이며, 확장이 비간섭적(non‑interfering)이라는 가정 하에 J_k(π↑k‑1)=J_{k‑1}(π_{k‑1}) 가 성립한다. 신뢰 구역 업데이트는 KL(π_k‖π↑k‑1) ≤ ε 를 보장함으로써, 급격한 정책 변동을 억제하고 monotonic improvement 를 수학적으로 증명한다.

실험에서는 GAIA 벤치마크와 Humanity’s Last Exam(다중 선택형) 두 데이터셋을 사용해, 에이전트 수를 3→10까지 늘릴 때 성능이 지속적으로 상승하거나 최소한 유지되는 것을 확인했다. 특히, 기존 “naïve scale‑up”(새 에이전트를 바로 추가)이나 강력한 고정 라우터(SOTA GPT‑5 기반)와 비교했을 때, MonoScale은 평균 GAIA 점수 0.44→0.58까지 끌어올렸으며, 노이즈가 섞인 에이전트 풀에서도 성능 붕괴 없이 안정적인 결과를 보여준다.

핵심 인사이트는 (1) 에이전트‑특화 친숙화 작업이 라우터에게 새로운 에이전트의 실제 사용 가능 범위를 빠르게 학습하게 만든다, (2) 자연어 메모리가 라우터의 프롬프트에 직접 삽입되어 가벼운 “파라미터‑프리” 업데이트를 가능하게 하며, (3) 신뢰 구역 기반 보수적 정책 리프트가 확장 단계마다 성능 하락을 이론적으로 차단한다는 점이다. 이러한 설계는 LLM 기반 MAS가 실시간으로 플러그인·툴·전문가를 추가하면서도 서비스 품질을 유지하도록 하는 실용적인 로드맵을 제공한다.

MonoScale: 다중 에이전트 시스템을 안정적으로 확장하는 방법

초록

상세 분석

댓글 및 학술 토론

의견 남기기