Evolutionary Generation of Multi-Agent Systems
作者: Yuntong Hu, Matthew Trager, Yuting Zhang, Yi Zhang, Shuo Yang, Wei Xia, Stefano Soatto
分类: cs.LG
发布日期: 2026-02-06 (更新: 2026-02-11)
备注: Employer internal policy compliance
💡 一句话要点
EvoMAS:基于演化算法的多智能体系统自动生成框架,提升复杂任务性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 自动生成 演化算法 配置空间 大语言模型 软件工程 工具使用
📋 核心要点
- 现有MAS设计依赖人工,成本高昂且泛化性差;自动生成方法要么依赖代码生成导致鲁棒性问题,要么模板僵化限制表达能力。
- EvoMAS将MAS生成建模为配置生成问题,通过演化算法在配置空间搜索,利用执行反馈指导变异和交叉,迭代优化系统。
- 实验表明,EvoMAS在多个基准测试中超越人工设计和现有自动生成方法,提升了任务性能、可执行性和鲁棒性。
📝 摘要(中文)
本文提出了一种名为EvoMAS(Evolutionary Generation of Multi-Agent Systems)的框架,用于自动生成多智能体系统(MAS)。该方法将MAS生成视为结构化的配置生成问题,并在配置空间中执行演化生成。EvoMAS从一个初始配置池中选择配置,应用基于反馈的变异和交叉操作,这些操作由执行轨迹引导,并迭代地改进候选池和经验记忆。在BBEH、SWE-Bench和WorkBench等多个基准测试中,EvoMAS在推理、软件工程和工具使用任务上均优于人工设计的MAS和现有的自动MAS生成方法,同时生成系统的可执行性和运行时鲁棒性更高。EvoMAS在BBEH推理和WorkBench上分别比EvoAgent提高了+10.5和+7.1个百分点。使用Claude-4.5-Sonnet,EvoMAS在SWE-Bench-Verified上达到了79.1%,与排行榜的顶端水平相当。
🔬 方法详解
问题定义:现有的大语言模型(LLM)驱动的多智能体系统(MAS)设计高度依赖人工,需要专家知识和大量实验,成本高昂。此外,现有的自动MAS生成方法存在局限性:一些方法依赖代码生成,容易出现执行错误和鲁棒性问题;另一些方法则采用固定的架构模板,限制了系统的表达能力和适应性。因此,如何高效、鲁棒地自动生成高性能的MAS是一个亟待解决的问题。
核心思路:EvoMAS的核心思路是将MAS的生成过程视为一个结构化的配置生成问题。通过在配置空间中进行演化搜索,EvoMAS能够自动发现更优的MAS架构。这种方法避免了直接生成代码,从而提高了生成系统的可执行性和鲁棒性。同时,演化算法的灵活性使得EvoMAS能够探索更广泛的架构空间,克服了固定模板的限制。
技术框架:EvoMAS的整体框架包括以下几个主要阶段:1) 初始化:从预定义的配置空间中随机选择或使用启发式方法生成初始的MAS配置池。2) 执行与评估:对池中的每个MAS配置进行执行,并根据任务完成情况和执行指标(如运行时错误)进行评估。3) 反馈收集:收集执行轨迹和评估结果,作为演化过程的反馈信号。4) 演化操作:根据反馈信号,对池中的MAS配置应用变异和交叉操作,生成新的配置。变异操作包括修改智能体的角色、目标、通信方式等;交叉操作则将不同配置的优点结合起来。5) 选择与更新:根据评估结果,选择优秀的MAS配置进入下一代,并更新经验记忆。重复执行上述步骤,直到达到预定的迭代次数或性能指标。
关键创新:EvoMAS最重要的技术创新点在于将MAS生成问题转化为配置空间中的演化搜索问题。与传统的代码生成方法相比,这种方法更加鲁棒,避免了复杂的代码调试和维护。与固定模板方法相比,EvoMAS能够探索更广泛的架构空间,发现更优的MAS配置。此外,EvoMAS利用执行轨迹和评估结果作为反馈信号,指导演化过程,提高了搜索效率。
关键设计:EvoMAS的关键设计包括:1) 配置空间:定义了MAS的各种可配置参数,如智能体的数量、角色、目标、通信方式、工具使用策略等。2) 变异和交叉操作:设计了多种变异和交叉操作,用于探索配置空间。这些操作需要保证生成的MAS配置是有效的,并且能够适应不同的任务。3) 反馈机制:设计了有效的反馈机制,利用执行轨迹和评估结果指导演化过程。例如,可以根据智能体之间的通信模式调整通信策略,或者根据任务完成情况调整智能体的目标。4) 选择策略:采用合适的选择策略,如锦标赛选择或轮盘赌选择,选择优秀的MAS配置进入下一代。
📊 实验亮点
EvoMAS在多个基准测试中表现出色。在BBEH推理任务上,EvoMAS比EvoAgent提高了10.5个百分点;在WorkBench任务上,提高了7.1个百分点。更值得注意的是,使用Claude-4.5-Sonnet模型,EvoMAS在SWE-Bench-Verified上达到了79.1%的准确率,与排行榜顶端水平相当,证明了其在实际软件工程任务中的强大能力。
🎯 应用场景
EvoMAS具有广泛的应用前景,可用于自动生成各种复杂任务的MAS,例如软件工程、智能交通、金融交易、游戏AI等。通过自动优化MAS架构,EvoMAS可以显著提高任务完成效率和系统鲁棒性,降低开发成本。未来,EvoMAS有望成为一种通用的MAS设计工具,赋能各行各业。
📄 摘要(原文)
Large language model (LLM)-based multi-agent systems (MAS) show strong promise for complex reasoning, planning, and tool-augmented tasks, but designing effective MAS architectures remains labor-intensive, brittle, and hard to generalize. Existing automatic MAS generation methods either rely on code generation, which often leads to executability and robustness failures, or impose rigid architectural templates that limit expressiveness and adaptability. We propose Evolutionary Generation of Multi-Agent Systems (EvoMAS), which formulates MAS generation as structured configuration generation. EvoMAS performs evolutionary generation in configuration space. Specifically, EvoMAS selects initial configurations from a pool, applies feedback-conditioned mutation and crossover guided by execution traces, and iteratively refines both the candidate pool and an experience memory. We evaluate EvoMAS on diverse benchmarks, including BBEH, SWE-Bench, and WorkBench, covering reasoning, software engineering, and tool-use tasks. EvoMAS consistently improves task performance over both human-designed MAS and prior automatic MAS generation methods, while producing generated systems with higher executability and runtime robustness. EvoMAS outperforms the agent evolution method EvoAgent by +10.5 points on BBEH reasoning and +7.1 points on WorkBench. With Claude-4.5-Sonnet, EvoMAS also reaches 79.1% on SWE-Bench-Verified, matching the top of the leaderboard.