MetaAgent-X : Breaking the Ceiling of Automatic Multi-Agent Systems via End-to-End Reinforcement Learning
作者: Yaolun Zhang, Yujie Zhao, Nan Wang, Yiran Wu, Jiayu Chang, Yizhao Chen, Qingyun Wu, Jishen Zhao, Huazheng Wang
分类: cs.AI
发布日期: 2026-05-14
💡 一句话要点
MetaAgent-X:通过端到端强化学习打破自动多智能体系统的性能瓶颈
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体系统 强化学习 自动设计 端到端训练 协同进化
📋 核心要点
- 现有自动多智能体系统(MAS)方法存在“冻结执行器”问题,限制了系统性能的进一步提升。
- MetaAgent-X提出端到端强化学习框架,联合优化MAS设计和执行,实现自设计和自执行。
- 实验表明,MetaAgent-X显著优于现有基线,验证了端到端可训练自动MAS的有效性。
📝 摘要(中文)
自动多智能体系统旨在无需手动设计或固定编排即可实例化智能体工作流程。然而,现有的自动MAS方法仍然只是部分自适应的:它们要么执行无训练的测试时搜索,要么优化元级别设计器,同时保持下游执行智能体冻结,从而造成了“冻结执行器”的性能瓶颈,并使得自设计和自执行智能体模型的端到端训练未被探索。为了解决这个问题,我们提出了MetaAgent-X,一个端到端强化学习框架,可以联合优化自动MAS设计和执行。MetaAgent-X支持基于脚本的MAS生成、执行轨迹收集以及设计器和执行器轨迹的信用分配。为了支持稳定和可扩展的优化,我们提出了执行器-设计器分层Rollout和阶段性协同进化,以提高训练稳定性并揭示设计器-执行器协同进化的动态。MetaAgent-X始终优于现有的自动MAS基线,实现了高达21.7%的收益。全面的消融实验表明,设计器和执行器在整个训练过程中都得到了改进,并且有效的自动MAS学习遵循阶段性协同进化过程。这些结果确立了端到端可训练的自动MAS作为构建自设计和自执行智能体模型的实用范例。
🔬 方法详解
问题定义:现有自动多智能体系统方法主要存在的问题是设计器和执行器无法进行端到端的联合优化。要么设计器固定,执行器进行搜索,要么执行器固定,设计器进行优化。这种割裂的方式导致执行器的能力无法充分发挥,形成性能瓶颈。因此,需要一种能够同时优化设计器和执行器的框架,从而实现更强大的自动MAS。
核心思路:MetaAgent-X的核心思路是将自动MAS的设计和执行过程视为一个整体,通过端到端强化学习进行联合优化。设计器负责生成MAS的结构和参数,执行器负责在生成的MAS中执行任务。通过强化学习,设计器可以学习如何生成更适合执行器执行的MAS,而执行器可以学习如何在不同的MAS中更好地执行任务。这种协同进化的方式可以打破“冻结执行器”的瓶颈,实现更强大的自动MAS。
技术框架:MetaAgent-X的技术框架主要包括三个部分:MAS生成器、执行器和强化学习优化器。MAS生成器负责根据设计器的输出生成MAS的脚本。执行器负责在生成的MAS中执行任务,并收集执行轨迹。强化学习优化器负责根据执行轨迹计算奖励,并更新设计器和执行器的参数。为了提高训练的稳定性和可扩展性,MetaAgent-X采用了执行器-设计器分层Rollout和阶段性协同进化策略。
关键创新:MetaAgent-X最重要的技术创新点在于实现了自动MAS设计和执行的端到端联合优化。与现有方法相比,MetaAgent-X可以同时优化设计器和执行器,从而打破“冻结执行器”的瓶颈。此外,MetaAgent-X还提出了执行器-设计器分层Rollout和阶段性协同进化策略,进一步提高了训练的稳定性和可扩展性。
关键设计:MetaAgent-X的关键设计包括:1) 使用基于脚本的MAS生成方式,使得设计器可以灵活地控制MAS的结构和参数;2) 采用分层Rollout策略,分别收集设计器和执行器的轨迹,并进行信用分配;3) 设计阶段性协同进化策略,使得设计器和执行器可以逐步适应彼此的能力,从而实现更稳定的训练;4) 使用合适的奖励函数,鼓励设计器生成更适合执行器执行的MAS,并鼓励执行器在不同的MAS中更好地执行任务。具体参数设置和网络结构在论文中有详细描述,此处不再赘述。
🖼️ 关键图片
📊 实验亮点
MetaAgent-X在多个自动MAS任务上取得了显著的性能提升,最高达到21.7%。消融实验表明,设计器和执行器在训练过程中都得到了持续改进,验证了端到端联合优化的有效性。此外,实验还揭示了自动MAS学习遵循阶段性协同进化过程,为未来的研究提供了重要的指导。
🎯 应用场景
MetaAgent-X具有广泛的应用前景,例如在机器人控制、游戏AI、交通调度、资源管理等领域。它可以用于自动设计和优化多智能体系统,从而提高系统的性能和效率。未来,MetaAgent-X可以进一步扩展到更复杂的场景,例如涉及异构智能体、动态环境和不确定性的场景。
📄 摘要(原文)
Automatic multi-agent systems aim to instantiate agent workflows without relying on manually designed or fixed orchestration. However, existing automatic MAS approaches remain only partially adaptive: they either perform training-free test-time search or optimize the meta-level designer while keeping downstream execution agents frozen, which creating a frozen-executor ceiling and leaving the end-to-end training of self-designing and self-executing agentic models unexplored. To address this, we introduce MetaAgent-X, an end-to-end reinforcement learning framework that jointly optimizes automatic MAS design and execution. MetaAgent-X enables script-based MAS generation, execution rollout collection, and credit assignment for both designer and executor trajectories. To support stable and scalable optimization, we propose Executor Designer Hierarchical Rollout and Stagewise Co-evolution to improve training stability and expose the dynamics of designer-executor co-evolution. MetaAgent-X consistently outperforms existing automatic MAS baselines, achieving up to 21.7% gains. Comprehensive ablations show that both designer and executor improve throughout training, and that effective automatic MAS learning follows a stagewise co-evolution process. These results establish end-to-end trainable automatic MAS as a practical paradigm for building self-designing and self-executing agentic models.