Towards a Science of Collective AI: LLM-based Multi-Agent Systems Need a Transition from Blind Trial-and-Error to Rigorous Science

作者: Jingru Fan, Dewen Liu, Yufan Dang, Huatao Li, Yuheng Wang, Wei Liu, Feiyu Duan, Xuanwen Ding, Shu Yao, Lin Wu, Ruijie Shi, Wai-Shing Leung, Yuan Cheng, Zhongyu Wei, Cheng Yang, Chen Qian, Zhiyuan Liu, Maosong Sun

分类: cs.CL, cs.AI, cs.MA

发布日期: 2026-02-05

💡 一句话要点

构建集体AI科学体系：提出基于LLM的多智能体系统从盲目试错到严谨科学的过渡框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 大型语言模型 协作增益 因素归因 集体智能 科学框架 设计科学

📋 核心要点

现有基于LLM的多智能体系统研究过度依赖经验试错，缺乏统一的科学框架指导优化。
论文提出一种集成框架，通过协作增益指标（Γ）和因素归因范式，系统识别协作驱动因素。
构建了系统的MAS因素库，将设计空间结构化，为从盲目实验到严谨科学过渡提供支持。

📝 摘要（中文）

近年来，大型语言模型（LLMs）的进步极大地扩展了多智能体系统（MAS）的能力，并在广泛的复杂和开放领域中表现出显著的有效性。然而，尽管取得了快速进展，该领域仍然严重依赖于经验性的试错。它缺乏一个统一和有原则的科学框架，而这对于系统的优化和改进是必要的。这种瓶颈源于归因的模糊性：首先，缺乏结构化的因素分类使得研究人员只能进行无指导的调整；其次，缺乏统一的指标无法区分真正的协作增益与单纯的资源积累。在本文中，我们提倡通过一个集成框架过渡到设计科学。我们主张建立协作增益指标（Γ）作为科学标准，以将内在增益与增加的预算隔离开来。利用Γ，我们提出了一种因素归因范式，以系统地识别协作驱动因素。为了支持这一点，我们构建了一个系统的MAS因素库，将设计空间结构化为控制级别的预设和信息级别的动态。最终，该框架促进了从盲目实验到严谨科学的过渡，为实现真正的集体AI科学铺平了道路。

🔬 方法详解

问题定义：当前基于LLM的多智能体系统研究主要依赖于经验性的试错，缺乏一个统一的、有原则的科学框架来指导系统的优化和改进。现有方法难以区分真正的协作增益与单纯的资源堆砌，并且缺乏结构化的因素分类，导致研究人员只能进行无指导的调整。

核心思路：论文的核心思路是建立一个科学的、可解释的框架，用于分析和设计基于LLM的多智能体系统。通过定义协作增益指标（Γ）来量化智能体之间的协作效果，并提出一种因素归因范式，系统地识别影响协作效果的关键因素。

技术框架：该框架包含以下几个主要模块：1) 定义协作增益指标（Γ），用于量化多智能体系统的协作效果。2) 构建MAS因素库，将设计空间结构化为控制级别的预设和信息级别的动态。3) 提出因素归因范式，利用Γ来系统地识别协作驱动因素。4) 基于以上模块，实现从盲目实验到严谨科学的过渡。

关键创新：论文的关键创新在于提出了协作增益指标（Γ）和因素归因范式，这为量化和分析多智能体系统的协作效果提供了一种新的方法。与现有方法相比，该方法能够更准确地评估协作带来的增益，并系统地识别影响协作的关键因素。

关键设计：MAS因素库的设计是关键。它将设计空间结构化为控制级别的预设（例如，智能体的数量、通信协议）和信息级别的动态（例如，智能体之间的信息共享策略、环境的复杂性）。协作增益指标（Γ）的具体计算方式需要根据具体的应用场景进行定义，但其核心思想是衡量多智能体系统相对于单智能体系统的性能提升。

🖼️ 关键图片

📊 实验亮点

论文提出了协作增益指标（Γ）和因素归因范式，为量化和分析多智能体系统的协作效果提供了一种新的方法。构建了系统的MAS因素库，将设计空间结构化，为从盲目实验到严谨科学过渡提供支持。具体实验数据未知，但该框架为未来的实验设计和结果分析提供了理论基础。

🎯 应用场景

该研究成果可应用于各种需要多智能体协作的领域，例如：自动驾驶、机器人协同、智能交通、分布式计算等。通过该框架，可以更有效地设计和优化多智能体系统，提高系统的性能和效率，并降低开发成本。未来，该研究有望推动集体AI领域的发展，实现更智能、更高效的智能系统。

📄 摘要（原文）

Recent advancements in Large Language Models (LLMs) have greatly extended the capabilities of Multi-Agent Systems (MAS), demonstrating significant effectiveness across a wide range of complex and open-ended domains. However, despite this rapid progress, the field still relies heavily on empirical trial-and-error. It lacks a unified and principled scientific framework necessary for systematic optimization and improvement. This bottleneck stems from the ambiguity of attribution: first, the absence of a structured taxonomy of factors leaves researchers restricted to unguided adjustments; second, the lack of a unified metric fails to distinguish genuine collaboration gain from mere resource accumulation. In this paper, we advocate for a transition to design science through an integrated framework. We advocate to establish the collaboration gain metric ($Γ$) as the scientific standard to isolate intrinsic gains from increased budgets. Leveraging $Γ$, we propose a factor attribution paradigm to systematically identify collaboration-driving factors. To support this, we construct a systematic MAS factor library, structuring the design space into control-level presets and information-level dynamics. Ultimately, this framework facilitates the transition from blind experimentation to rigorous science, paving the way towards a true science of Collective AI.

Towards a Science of Collective AI: LLM-based Multi-Agent Systems Need a Transition from Blind Trial-and-Error to Rigorous Science

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理