샤플리 기반 다중 에이전트 보상 최적화

샤플리 기반 다중 에이전트 보상 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)과 외부 도구를 연계하는 다중 에이전트 시스템에서 발생하는 신용 할당 문제를 해결하기 위해 SHARP라는 프레임워크를 제안한다. SHARP는 전역 정확도 보상, 샤플리 기반 한계 기여 보상, 도구 프로세스 보상의 세 가지 요소로 보상을 분해하고, 카운터팩추얼 마스킹을 통해 각 에이전트의 마진 기여도를 추정한다. 이를 통해 에이전트별 이점을 정규화하고 학습 변동성을 감소시켜, 다양한 실세계 벤치마크에서 단일·다중 에이전트 기존 방법 대비 평균 23.66%·14.05%의 성능 향상을 달성한다.

상세 분석

SHARP는 LLM 기반 도구 활용 시 발생하는 “누가 성공에 기여했는가”라는 근본적인 신용 할당 문제를 게임 이론의 샤플리 값을 차용해 정량화한다. 기존 MARL 접근법이 전역 보상만을 브로드캐스트하거나 희소한 피드백에 의존하는 반면, SHARP는 (1) 전역 방송 정확도 보상(R_acc)으로 최종 정답 일치 여부를 모든 에이전트에 전달하고, (2) 샤플리 기반 마진 크레딧(R_mc)으로 각 에이전트가 전체 성과에 미친 평균 기여도를 추정한다. 여기서 카운터팩추얼 마스킹은 특정 에이전트를 제거한 가상 궤적을 생성해 성과 차이를 계산함으로써 샤플리 값을 근사한다. (3) 도구 프로세스 보상(R_tool)은 각 에이전트가 수행한 도구 호출의 정확성과 실행 가능성을 평가해 학습 단계에서 즉각적인 피드백을 제공한다. 세 보상의 가중치 α, β, γ를 통해 전역 목표와 개별 기여, 실행 효율성을 균형 있게 조정한다.

또한 SHARP는 “그룹 상대 정책”(Group‑Relative Policy Optimization, GRPO)과 결합해 에이전트별 이점을 동일한 궤적 그룹 내에서 정규화한다. 이는 정책 그라디언트의 분산을 크게 감소시켜 학습 안정성을 확보한다. 논문은 파라미터 공유 셀프플레이 설정을 채택해 플래너와 워커가 동일한 모델 파라미터를 공유하지만 역할별 프롬프트로 기능을 구분한다. 이렇게 하면 모델 규모에 관계없이 동일한 프레임워크를 적용할 수 있다.

실험에서는 MuSiQue, GAIA‑text, WebWalkerQA, FRAMES 등 복합 추론·도구 사용이 요구되는 벤치마크와 DocMathEval 같은 수학 문제 집합에 SHARP를 적용했다. Qwen‑3‑8B 백본을 사용했을 때 단일‑에이전트 대비 평균 23.66%, 기존 다중‑에이전트 대비 14.05%의 매치 점수 향상을 기록했으며, 특히 8B 모델에서 14.41 포인트의 절대적 개선을 보였다. 또한 해로운 서브에이전트 비율을 5.48%에서 4.40%로 감소시켜 협업 구조의 품질을 정량적으로 입증했다.

핵심 기여는 (1) 샤플리 값을 활용한 정밀 신용 할당 메커니즘, (2) 세 가지 보상 신호를 통합한 보상 분해 설계, (3) 다양한 도구‑연계 시나리오에 적용 가능한 파라미터‑공유 셀프플레이 아키텍처, (4) 광범위한 실험을 통한 성능·안정성 검증이다. SHARP는 LLM‑기반 멀티에이전트 시스템의 학습 효율성을 크게 향상시킬 수 있는 실용적이고 이론적으로 탄탄한 접근법으로 평가된다.


댓글 및 학술 토론

Loading comments...

의견 남기기