MASPOB 그래프 신경망 기반 밴딧으로 다중 에이전트 시스템 프롬프트 최적화

MASPOB 그래프 신경망 기반 밴딧으로 다중 에이전트 시스템 프롬프트 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MASPOB는 제한된 평가 예산 하에서 다중 에이전트 시스템(MAS)의 프롬프트 조합을 효율적으로 탐색하기 위해, 그래프 신경망(GNN)으로 토폴로지 정보를 인코딩하고, 선형 밴딧의 Upper Confidence Bound(UCB) 전략으로 탐색‑활용 균형을 맞춘 프레임워크이다. 좌표 상승(coordination ascent) 기법을 이용해 조합 공간을 선형 시간으로 축소함으로써, 실험에서 기존 베이스라인 대비 평균 12 % 이상의 성능 향상을 달성하였다.

상세 분석

본 논문은 LLM 기반 다중 에이전트 시스템(MAS)에서 프롬프트 최적화가 시스템 전체 성능에 미치는 영향을 정량화하고, 세 가지 핵심 난관—(1) 평가 비용이 높은 샘플 효율성 요구, (2) 에이전트 간 토폴로지에 의한 상호 의존성, (3) 조합 공간의 지수적 폭발—을 동시에 해결하고자 한다. 이를 위해 저자들은 먼저 MAS를 유향 비순환 그래프(DAG)로 모델링하고, 각 에이전트의 프롬프트를 사전 학습된 텍스트 인코더로 d‑차원 임베딩화한다. 이 임베딩을 노드 특성으로 사용해 Graph Attention Network(GAT)를 구축함으로써, 인접 에이전트 간 메시지 전달과 주의 메커니즘을 통해 토폴로지‑aware 표현을 학습한다. GAT의 출력은 전체 그래프 풀링 후 MLP에 입력되어 예측 성능 µ(c)를 산출한다.

탐색‑활용 트레이드오프는 선형 밴딧 모델인 LinUCB를 적용해 구현한다. 평가된 조합들의 임베딩을 이용해 정보 행렬 M을 누적하고, 새로운 조합 c에 대한 불확실성 σ(c)=q·Φ(c)ᵀM⁻¹Φ(c) 를 계산한다. 최종 UCB 점수는 µ(c)+α·σ(c) 로 정의되며, α는 탐색 강도를 조절한다. 이 설계는 제한된 예산 내에서 아직 탐색되지 않은 영역을 효과적으로 탐색하도록 유도한다.

조합 공간의 폭발적 크기를 완화하기 위해 좌표 상승(coordination ascent) 전략을 도입한다. 현재 최적 조합 c*를 기준으로 각 에이전트를 순차적으로 고정하고, 해당 에이전트의 프롬프트만을 UCB 기준으로 최적화한다. 이 과정은 전체 조합을 일일이 평가하는 O(∏|P_i|) 복잡도를 O(∑|P_i|) 로 낮추어, 실제 MAS 실행 비용이 큰 상황에서도 실시간에 가까운 탐색이 가능하도록 만든다.

실험에서는 HotpotQA, DROP, HumanEval, MBPP, GSM8K, MA​TH 등 6개 베ン치마크에 대해 동일한 평가 예산(T) 하에서 MASPOB가 기존 단일 에이전트 프롬프트 최적화기(OPRO, PromptBreeder)와 다중 단계 베이즈 최적화기(MIPRO)보다 일관되게 높은 점수를 기록했다. 특히 토폴로지‑aware GNN 서프라이즈가 없을 경우 성능 저하가 5~8 % 정도 발생함을 보이며, GNN이 토폴로지 정보를 효과적으로 활용함을 입증한다. 또한 좌표 상승 없이 전체 탐색을 수행하면 예산 초과로 인한 성능 저하가 급격히 나타나, 제안된 검색 전략의 실용성을 강조한다.

전반적으로 MASPOB는 (i) 밴딧 기반 불확실성 추정으로 샘플 효율성을 확보하고, (ii) GNN을 통한 토폴로지 인코딩으로 에이전트 간 상호작용을 정량화하며, (iii) 좌표 상승으로 조합 공간을 선형화하는 세 가지 혁신을 결합함으로써, 제한된 비용 환경에서도 MAS 프롬프트 최적화를 실현한다는 점에서 의미가 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기