MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

📄 arXiv: 2505.14996v3 📥 PDF

作者: Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-05-21 (更新: 2025-12-01)

备注: SEA@NeurIPS (Oral) 2025


💡 一句话要点

MAS-ZERO:无需监督的自进化多智能体系统设计框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 大型语言模型 自动设计 元学习 自进化 问题分解 智能体组合

📋 核心要点

  1. 现有MAS设计依赖人工,难以适应新任务和LLM的特性,自动MAS方法又需要验证集且缺乏推理时的适应性。
  2. MAS-ZERO通过元级别设计,迭代地设计、评估和改进MAS配置,无需验证集,实现动态问题分解和智能体组合。
  3. 实验表明,MAS-ZERO在推理、编码和智能体任务上显著优于现有方法,并保持了成本效益。

📝 摘要(中文)

本文提出MAS-ZERO,一种用于自动多智能体系统(MAS)设计的自进化、推理时框架。现有MAS依赖于手动设计的智能体角色和通信协议,难以适应新任务,且缺乏推理时的适应性。MAS-ZERO通过元级别设计迭代地设计、评估和改进MAS配置,无需验证集。它通过对可解性和完整性的元反馈,实现动态的问题分解和智能体组合,并在适当情况下简化为更简单的系统。在推理(数学和研究生水平问答)、编码和智能体(基于搜索)基准测试中,使用不同规模的闭源和开源LLM,MAS-ZERO优于强大的手动和自动MAS基线,在推理、编码和智能体任务上分别实现了高达16.69%、16.66%和5.45%的平均准确率提升,同时保持了成本效益。

🔬 方法详解

问题定义:现有的大多数多智能体系统(MAS)依赖于人工设计的智能体角色和通信协议。这种人工设计的MAS存在几个痛点:一是难以充分利用大型语言模型(LLM)的强大能力;二是难以适应新的任务;三是缺乏推理时的适应性,无法根据具体问题进行动态调整;四是需要验证集进行调优,增加了开发成本。

核心思路:MAS-ZERO的核心思路是采用元级别设计,让系统能够自我进化,自动设计适合特定问题的MAS配置。具体来说,MAS-ZERO通过迭代的方式,不断地设计、评估和改进MAS配置,而无需人工干预或验证集。这种自进化的设计方式能够更好地适应LLM的特性,并根据具体问题进行动态调整。

技术框架:MAS-ZERO的整体框架包含以下几个主要阶段:1) 设计阶段:系统根据当前问题,生成一个初始的MAS配置,包括智能体的数量、角色和通信协议等。2) 评估阶段:系统评估当前MAS配置的性能,例如,通过解决问题或完成任务的成功率来评估。3) 改进阶段:根据评估结果,系统对MAS配置进行改进,例如,增加或减少智能体的数量,调整智能体的角色或通信协议等。这个过程会迭代进行,直到找到一个满足要求的MAS配置。此外,系统还会根据问题的复杂程度,动态地调整MAS的复杂度,在问题简单时,会简化为更简单的系统。

关键创新:MAS-ZERO最重要的技术创新点是其自进化的设计方式。与现有方法相比,MAS-ZERO无需人工设计或验证集,而是通过元级别设计,让系统能够自我进化,自动设计适合特定问题的MAS配置。这种自进化的设计方式能够更好地适应LLM的特性,并根据具体问题进行动态调整。此外,MAS-ZERO还能够动态地调整MAS的复杂度,在问题简单时,会简化为更简单的系统,从而提高效率。

关键设计:MAS-ZERO的关键设计包括:1) 元级别设计:系统使用LLM作为元控制器,负责设计、评估和改进MAS配置。2) 元反馈机制:系统通过对可解性和完整性的元反馈,来指导MAS配置的改进。3) 动态问题分解和智能体组合:系统能够根据问题的复杂程度,动态地分解问题和组合智能体。4) 简化机制:系统能够在问题简单时,简化为更简单的系统。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MAS-ZERO在推理、编码和智能体任务上显著优于现有的手动和自动MAS基线。具体来说,在推理任务上,MAS-ZERO的平均准确率提升高达16.69%;在编码任务上,平均准确率提升高达16.66%;在智能体任务上,平均准确率提升高达5.45%。这些结果表明,MAS-ZERO能够有效地自动设计和优化多智能体系统,并能够显著提高任务完成效率和质量。

🎯 应用场景

MAS-ZERO具有广泛的应用前景,可以应用于各种需要多智能体协作的复杂任务,例如:自动化软件开发、智能客服、金融交易、科学研究等。通过自动设计和优化多智能体系统,可以显著提高任务完成效率和质量,降低开发成本,并能够更好地利用大型语言模型的能力。未来,MAS-ZERO有望成为构建通用人工智能系统的关键技术之一。

📄 摘要(原文)

Multi-agent systems (MAS) leveraging the impressive capabilities of Large Language Models (LLMs) hold significant potential for tackling complex tasks. However, most current MAS depend on manually designed agent roles and communication protocols. These manual designs often fail to align with the underlying LLMs' strengths and struggle to adapt to novel tasks. Recent automatic MAS approaches attempt to mitigate these limitations but typically necessitate a validation set for tuning and yield static MAS designs lacking adaptability during inference, while also removing the flexibility to reduce to simpler systems. We introduce MAS-ZERO, the first self-evolved, inference-time framework for automatic MAS design. MAS-ZERO employs meta-level design to iteratively design, critique, and refine MAS configurations tailored to each problem instance, without requiring a validation set. Critically, it enables dynamic problem decomposition and agent composition through meta-feedback on solvability and completeness, and reduction to simpler systems when appropriate. Experiments across reasoning (math and graduate-level QA), coding, and agentic (search-based) benchmarks, using both closed-source and open-source LLM backbones of varying sizes, demonstrate that MAS-ZERO outperforms strong manual and automatic MAS baselines. It achieves substantial average accuracy improvements of up to 16.69% on reasoning, 16.66% on coding, and 5.45% on agentic tasks, while maintaining cost efficiency.