Stronger-MAS: Multi-Agent Reinforcement Learning for Collaborative LLMs
作者: Yujie Zhao, Lanxiang Hu, Yang Wang, Minmin Hou, Hao Zhang, Ke Ding, Jishen Zhao
分类: cs.LG, cs.MA
发布日期: 2025-10-13 (更新: 2026-01-29)
🔗 代码/项目: GITHUB
💡 一句话要点
提出AT-GRPO算法,解决多智能体LLM协作中的策略优化难题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 强化学习 大型语言模型 策略优化 协作智能体
📋 核心要点
- 现有方法在多智能体LLM协作中,难以有效应用on-policy RL进行策略优化,尤其是在提示随角色和回合变化时。
- AT-GRPO算法通过agent-和turn-wise分组RL,并结合支持单策略和多策略的训练系统,解决了上述挑战。
- 实验表明,AT-GRPO在长时程规划、编码和数学任务上均取得了显著的性能提升,验证了其有效性。
📝 摘要(中文)
本文提出了一种用于增强大型语言模型(LLM)智能体能力的多智能体系统(MAS)和强化学习(RL)方法。MAS通过基于角色的编排来提高任务性能,而RL则利用环境奖励来学习更强的策略,例如GRPO风格的优化。然而,将on-policy RL应用于MAS的研究仍然不足,并且面临独特的挑战。在算法方面,标准的GRPO分组假设由于提示因角色和回合而异而失效。在系统方面,训练堆栈必须支持MAS工作流的rollout以及单策略和多策略模型的on-policy更新。我们提出了AT-GRPO,其中包括(i)一种针对MAS量身定制的agent-和turn-wise分组RL算法,以及(ii)一个支持单策略和多策略机制的训练系统。在游戏、规划、编码和数学任务中,AT-GRPO带来了显著的收益。在长时程规划中,它将准确率从14.0%到47.0%的单智能体RL基线提高到96.0%到99.5%。它还提高了推理性能,在编码任务上的平均增益为3.87%到7.62%,在数学任务上的平均增益为9.0%到17.93%。
🔬 方法详解
问题定义:论文旨在解决多智能体系统中,如何有效地利用强化学习来优化大型语言模型的协作策略的问题。现有的方法,特别是直接应用GRPO等on-policy RL算法时,会因为多智能体环境中prompt的多样性(因角色和回合而异)而失效,导致分组假设不再成立,策略优化效果不佳。
核心思路:论文的核心思路是提出一种agent-和turn-wise的分组强化学习算法(AT-GRPO),该算法能够适应多智能体环境中prompt的多样性,从而更有效地进行策略优化。通过考虑每个agent和每个turn的prompt差异,AT-GRPO能够更准确地估计策略梯度,并进行更有效的策略更新。
技术框架:AT-GRPO的技术框架包含两个主要组成部分:一是agent-和turn-wise分组RL算法,二是支持单策略和多策略机制的训练系统。训练系统负责生成多智能体协作的rollout数据,并根据AT-GRPO算法计算策略梯度,然后更新LLM的策略。该框架支持单策略和多策略两种模式,允许不同的智能体共享或拥有独立的策略。
关键创新:AT-GRPO的关键创新在于其agent-和turn-wise的分组方式。传统的GRPO算法通常假设所有prompt都来自同一分布,但在多智能体环境中,由于角色和回合的不同,prompt的分布会发生变化。AT-GRPO通过对每个agent和每个turn的prompt进行分组,能够更准确地估计策略梯度,从而实现更有效的策略优化。
关键设计:AT-GRPO算法的关键设计包括:(1) 如何根据agent和turn对prompt进行分组;(2) 如何在每个组内估计策略梯度;(3) 如何将不同组的策略梯度进行聚合,以更新LLM的策略。具体的损失函数和网络结构细节论文中未明确说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
AT-GRPO在多个任务上取得了显著的性能提升。在长时程规划任务中,准确率从单智能体RL基线的14.0%-47.0%提升至96.0%-99.5%。在编码任务上,平均增益为3.87%-7.62%,在数学任务上,平均增益为9.0%-17.93%。这些结果表明AT-GRPO在多智能体协作任务中具有强大的性能优势。
🎯 应用场景
该研究成果可广泛应用于需要多智能体协作的场景,例如游戏AI、任务规划、软件开发和数学问题求解等。通过AT-GRPO算法,可以显著提升多智能体系统的协作效率和任务完成质量,具有重要的实际应用价值和潜在的商业前景。
📄 摘要(原文)
Multi-agent systems (MAS) and reinforcement learning (RL) are widely used to enhance the agentic capabilities of large language models (LLMs). MAS improves task performance through role-based orchestration, while RL uses environmental rewards to learn stronger policies, such as GRPO-style optimization. However, applying on-policy RL to MAS remains underexplored and presents unique challenges. Algorithmically, standard GRPO grouping assumptions break down because prompts vary by role and by turn. System-wise, the training stack must support MAS-workflow rollouts and on-policy updates for both single-policy and multi-policy models. We propose AT-GRPO, which includes (i) an agent- and turn-wise grouped RL algorithm tailored to MAS and (ii) a training system that supports both single- and multi-policy regimes. Across game, planning, coding, and math tasks, AT-GRPO delivers substantial gains. On long-horizon planning, it increases accuracy from a 14.0 to 47.0 percent single-agent RL baseline to 96.0 to 99.5 percent. It also improves reasoning performance, with average gains of 3.87 to 7.62 percent on coding tasks and 9.0 to 17.93 percent on math. Code and environments are available at: https://github.com/pettingllms-ai/PettingLLMs.