MAS 강화 학습을 위한 AT‑GRPO: 역할·턴 기반 다중 에이전트 LLM 최적화

MAS 강화 학습을 위한 AT‑GRPO: 역할·턴 기반 다중 에이전트 LLM 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다중 에이전트 시스템(MAS)과 온‑폴리시 강화학습(RL)을 결합한 새로운 알고리즘 AT‑GRPO와 이를 지원하는 학습 인프라를 제안한다. 에이전트와 턴별로 그룹을 형성하고 트리 구조 샘플링을 적용해 기존 GRPO의 그룹 가정이 깨지는 문제를 해결한다. 실험 결과, 장기 계획, 코딩, 수학 등 4개 도메인에서 기존 단일‑에이전트 GRPO 대비 5%~84% 절대 정확도 향상을 달성한다.

상세 분석

AT‑GRPO는 다중 에이전트 환경을 마코프 게임으로 모델링하고, 각 에이전트가 역할‑특화 프롬프트와 상호작용 히스토리를 포함한 “프롬프트”를 공유한다는 점에 주목한다. 기존 GRPO는 동일 프롬프트에 대해 K개의 후보 응답을 샘플링하고, 그들의 보상을 평균‑중심·정규화하여 상대적 어드밴티지를 계산한다. 그러나 MAS에서는 역할과 턴이 바뀔 때마다 프롬프트가 달라지므로, 같은 프롬프트를 공유하는 후보군을 만들기 어렵다. 이를 해결하기 위해 AT‑GRPO는 (1) 에이전트·턴‑와이즈 그룹화를 도입한다. 동일 에이전트와 동일 턴에 대해 K개의 후보 행동을 동시에 샘플링하고, 그 그룹 내에서 어드밴티지를 계산한다. 이렇게 하면 프롬프트가 완전히 동일한 상황에서 비교가 이루어져 GRPO의 편향 감소 효과를 유지한다.

두 번째 핵심 아이디어는 트리‑구조 샘플링이다. 각 턴마다 K개의 후보를 샘플링하고, 가장 높은 보상을 받은 후보를 실제 실행 행동으로 선택한다. 선택된 행동은 다음 턴의 상태를 결정하고, 다시 K개의 후보를 생성한다. 이 과정을 트리 형태로 이어가면, 각 턴·에이전트 조합마다 K개의 비교 가능한 후보가 확보된다. 기존의 병렬 샘플링은 턴이 진행될수록 그룹 크기가 1이 되어 어드밴티지 추정이 불안정해지는 문제를 피한다.

시스템 차원에서는 다중 정책 지원이 핵심이다. 역할‑공유 정책(모든 에이전트가 동일 모델)과 역할‑전문화 정책(에이전트마다 별도 모델) 두 가지 학습 모드를 동시에 운영한다. 데이터 수집 단계에서 각 에이전트는 자체 데이터셋 D_i 를 구축하고, 정책 업데이트 단계에서는 모델별 배치를 구성해 손실 L(θ) 를 계산한다. 역할‑전문화 정책은 각 에이전트가 자신의 데이터만 사용해 독립적으로 업데이트되므로, 역할 간 특화가 강화된다. 반면 역할‑공유 정책은 모든 에이전트의 데이터를 합쳐 하나의 큰 배치를 만들며, 전반적인 일반화 능력을 높인다.

실험에서는 Qwen‑3 1.7B와 8B 모델을 대상으로 게임(Sokoban), 장기 계획, 코딩(LiveCodeBench), 수학(다양한 베이스라인) 네 가지 도메인을 평가했다. 장기 계획에서는 기존 단일‑에이전트 GRPO가 14‑47% 정확도에 머물렀던 반면, AT‑GRPO는 96‑99.5%까지 끌어올렸다. 코딩에서는 평균 3.87‑7.62% 포인트, 수학에서는 9‑17.93% 포인트의 향상이 관찰되었다. 특히 역할‑전문화 정책이 필요할 경우(예: 코더‑테스터 루프)와 역할‑공유 정책이 유리한 경우(예: 단순 플래닝) 사이의 트레이드오프를 정량적으로 분석했다.

한계점으로는 (1) 현재 구현이 비교적 작은 모델(Qwen‑3)과 제한된 도메인에 국한돼 있어, 대규모 모델이나 복잡한 물리‑시뮬레이션 환경에 대한 확장성이 검증되지 않았다. (2) 트리‑구조 샘플링은 K가 클수록 계산 비용이 급증하므로, 효율적인 후보 생성 전략이 필요하다. (3) 보상 설계가 도메인‑특화되어 있어, 일반적인 보상 함수로의 전이 가능성은 아직 미확인이다. 향후 연구에서는 (i) 대규모 멀티모달 모델에 적용, (ii) 샘플링 효율성을 높이는 메타‑러닝 기반 후보 선택, (iii) 자동 보상 설계 프레임워크와의 통합을 제안한다.

전반적으로 AT‑GRPO는 “프롬프트 동일성”을 보장하면서 다중 에이전트 LLM에 온‑폴리시 RL을 적용할 수 있는 실용적인 해법을 제시한다. 이는 역할‑전문화와 협업을 동시에 학습시켜, 기존 단일‑에이전트 RL이 직면하던 장기 의존성 및 역할 간 시너지 부족 문제를 크게 완화한다는 점에서 의미가 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기