심포니코드: 탈중앙화 멀티에이전트 협업을 위한 온라인 밴딧 기반 라우팅
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
Symphony-Coord는 에이전트 선택을 온라인 컨텍스트 밴딧 문제로 전환해, 두 단계의 동적 비콘 프로토콜을 통해 후보를 빠르게 필터링하고 LinUCB 기반 선택기로 서브태스크를 라우팅한다. 이 접근법은 역할을 사전에 정의하지 않으며, 서브선형 후회(bound)와 실험을 통해 적응형 라우팅·자체 복구 능력을 입증한다.
상세 분석
본 논문은 대규모 언어 모델(LLM) 기반 멀티에이전트 시스템에서 기존의 중앙집중식 혹은 정적 역할 할당 방식이 초래하는 확장성·탄력성 한계를 정확히 짚어낸다. 저자들은 ‘에이전트 선택 = 온라인 컨텍스트 밴딧’이라는 핵심 아이디어를 도입함으로써, 각 서브태스크가 도착할 때마다 현재 가용 에이전트 풀을 하나의 팔(arm)로 보고, 태스크와 에이전트 상태를 결합한 컨텍스트 벡터를 기반으로 보상을 최대화하도록 학습한다.
두 단계 프로토콜은 실용적인 설계다. 1단계인 Top‑L 후보 필터링에서는 (i) 태스크‑에이전트 매칭 점수(임베딩 코사인 유사도 또는 레키컬 유사도), (ii) 과거 성공률, (iii) 최근 신뢰도 등을 가중합해 복합 점수를 산출하고, 이를 기반으로 L개의 후보만을 선택한다. 이 과정은 전체 에이전트에 대한 전수 탐색을 피해 통신·연산 비용을 크게 절감한다.
2단계에서는 LinUCB 알고리즘을 적용한다. 각 후보 j에 대해 x_{j,t} =
댓글 및 학술 토론
Loading comments...
의견 남기기