다중에이전트 LLM 시스템을 위한 안정적인 강화학습 DrMAS

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다중에이전트 LLM 시스템에 GRPO를 적용할 때 발생하는 보상 분포 불일치가 그래디언트 크기 폭발을 일으켜 학습이 불안정해지는 원인을 이론적으로 규명하고, 각 에이전트별로 자체 보상 평균·분산으로 어드밴티지를 정규화하는 Dr. MAS 방식을 제안한다. 에이전트‑와이즈 정규화는 그래디언트 스케일을 균일하게 만들어 훈련 안정성을 크게 향상시키며, Qwen2.5·Qwen3 모델을 이용한 수학 추론 및 다중턴 검색 벤치마크에서 기존 GRPO 대비 평균·패스 점수가 크게 개선된다. 또한 이론적 분석, 시스템 아키텍처, 이기종 모델 할당 지원 등 전반적인 프레임워크를 제공한다.

상세 분석

논문은 먼저 다중에이전트 LLM(MAS) 환경을 수학적으로 정의한다. K개의 에이전트 πθk가 협력적으로 작업을 수행하며, 각 타임스텝 t에 활성화된 에이전트 kt가 상태 st에 대해 행동 at를 생성한다. 전체 트래젝터리 τ는 (st, at, kt) 시퀀스로 표현되고, 최종 보상 R(τ)만이 관측된다. 기존의 Group Relative Policy Optimization(GRPO)은 동일한 프롬프트에 대해 N개의 트래젝터리를 샘플링하고, 전체 보상의 평균 µ와 표준편차 σ를 이용해 전역 어드밴티지 Aglobali=Ri−µσ를 계산한다. 이 어드밴티지는 모든 에이전트의 정책 업데이트에 동일하게 적용된다.

하지만 다중에이전트 시스템에서는 각 에이전트가 수행하는 서브태스크가 다르고, 호출 빈도와 보상 분포도 크게 차이난다. 논문은 이를 정량화하기 위해 에이전트 k별 보상 평균 μk와 분산 σk²를 정의하고, 각 에이전트의 그래디언트 기여 ˜gk를 전역 정규화와 비교한다. Lemma 4.2에 따르면 ˜gk의 2차 모멘트는 E

다중에이전트 LLM 시스템을 위한 안정적인 강화학습 DrMAS

초록

상세 분석

댓글 및 학술 토론

의견 남기기