대화형 언어 모델의 협업 능력 향상: 강화 학습을 통한 최적화
📝 원문 정보
- Title: Reinforcement Learning-Augmented LLM Agents for Collaborative Decision Making and Performance Optimization
- ArXiv ID: 2512.24609
- 발행일: 2025-12-31
- 저자: Dong Qiu, Duo Xu, Limengxi Yue
📝 초록 (Abstract)
대규모 언어 모델(LLMs)은 언어 작업에서 우수한 성능을 보이지만, 종종 공동작업 의식이 부족하고 다중 에이전트 환경에서 전역적인 성능 최적화에 어려움을 겪습니다. 본 논문에서는 강화 학습을 통합한 LLM 에이전트 프레임워크를 제시하며, 이는 협업을 분산 부분可观测马尔可夫决策过程(Dec-POMDP)的形式化,并采用集中训练与分散执行(CTDE)。我们引入了组相对策略优化(GRPO),在训练过程中利用全局信号共同优化代理策略,同时简化联合奖励以平衡任务质量、速度和协调成本。在协作写作和编码基准测试中,我们的框架比单代理基线提高了3倍的任务处理速度,写作结构/风格一致性达到98.7%,编码通过率为74.6%。该方法始终优于强大的多代理LLM基线,并为复杂工作流程中的可靠合作提供了实际路径。💡 논문 핵심 해설 (Deep Analysis)

这种方法不仅在理论上具有创新性,而且在实际应用中也表现出色。它为复杂工作流程中的可靠合作提供了实用路径,特别是在需要多代理协调以实现高效任务完成的情况下。此外,该方法还展示了如何利用强化学习来优化多代理系统的行为,从而提高整体系统的性能和效率。
📄 논문 본문 발췌 (Excerpt)
📸 추가 이미지 갤러리

Reference
이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다.
저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.