When Agents Evolve, Institutions Follow

📄 arXiv: 2604.27691v1 📥 PDF

作者: Chao Fei, Hongcheng Guo, Yanghua Xiao

分类: cs.AI

发布日期: 2026-04-30

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于历史政治制度的多智能体架构,提升LLM的集体智能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 大型语言模型 政治制度 集体智能 治理模式

📋 核心要点

  1. 现有基于LLM的多智能体系统缺乏有效的集体组织方法,导致整体性能受限。
  2. 借鉴历史政治制度,将其转化为多智能体架构,探索不同治理模式对集体智能的影响。
  3. 实验表明,治理拓扑结构显著影响集体表现,最优架构随模型能力和任务特征变化。

📝 摘要(中文)

在漫长的历史中,复杂社会都面临着如何在认知有限和信息不完全的个体之间组织集体行动的协调问题。不同的文明发展出不同的政治制度来回答谁提议、谁审查、谁执行以及如何纠正错误等基本问题。本文认为,构建在大型语言模型上的多智能体系统也面临着同样的挑战。它们的核心问题不仅是个体智能,更是集体组织。因此,历史制度为多智能体架构提供了一个结构化的设计空间,使得效率与纠错、集中化与分布式、专业化与冗余之间的关键权衡可以通过实验进行检验。本文将七种历史政治制度(涵盖四种典型的治理模式)转化为可执行的多智能体架构,并在相同条件下,在三种大型语言模型和两个基准测试上对其进行评估。结果表明,治理拓扑结构强烈地影响着集体表现。在单个模型中,最佳和最差制度之间的差距超过57个百分点,而最优架构会随着模型能力和任务特征而系统性地变化。这些结果表明,集体智能的进步不会通过单一的最优组织形式实现,而是通过可以随着任务和能力的发展而重新选择和重新配置的治理机制实现。更广泛地说,这表明了一种从自我进化智能体自我进化多智能体系统的转变。

🔬 方法详解

问题定义:论文旨在解决如何有效地组织基于大型语言模型(LLM)的多智能体系统,以实现更好的集体智能。现有方法主要关注个体智能的提升,而忽略了智能体之间的组织和协作方式。这导致多智能体系统在复杂任务中表现不佳,无法充分发挥LLM的潜力。现有方法的痛点在于缺乏对集体组织形式的系统性研究和有效设计。

核心思路:论文的核心思路是将历史政治制度作为多智能体架构的设计蓝图。作者认为,历史上的政治制度是人类在长期社会实践中形成的有效组织形式,蕴含着丰富的集体协作智慧。通过将这些制度转化为多智能体架构,可以借鉴其在效率、纠错、集中化和分布式等方面的权衡,从而提升多智能体系统的集体智能。

技术框架:论文的技术框架主要包括以下几个步骤:1) 选择七种具有代表性的历史政治制度,涵盖四种典型的治理模式。2) 将这些制度转化为可执行的多智能体架构,明确每个智能体的角色、职责和交互方式。3) 在三种大型语言模型和两个基准测试上,对这些架构进行评估。4) 分析实验结果,探讨不同治理拓扑结构对集体表现的影响,以及最优架构随模型能力和任务特征的变化。

关键创新:论文最重要的技术创新点在于将历史政治制度引入多智能体系统设计。这种跨学科的思路为多智能体系统的组织和协作提供了新的视角和方法。与现有方法相比,该方法不再局限于对个体智能的提升,而是更加关注智能体之间的组织和协作方式,从而实现集体智能的整体提升。

关键设计:论文的关键设计包括:1) 对七种历史政治制度的具体建模,例如,如何将“君主制”转化为多智能体架构,明确每个智能体的角色和职责。2) 如何设计智能体之间的交互方式,例如,信息传递、决策制定和任务分配等。3) 如何选择合适的基准测试和评估指标,以全面评估不同架构的性能。4) 如何根据模型能力和任务特征,动态调整多智能体架构的参数和配置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,不同的治理拓扑结构对多智能体系统的集体表现有显著影响。在单个模型中,最佳和最差制度之间的差距超过57个百分点。最优架构会随着模型能力和任务特征而系统性地变化。例如,在某些任务中,集中式架构表现更好,而在另一些任务中,分布式架构表现更优。

🎯 应用场景

该研究成果可应用于各种需要多智能体协作的场景,例如:智能客服、协同创作、自动驾驶、金融交易等。通过选择合适的治理模式,可以提升多智能体系统的效率、可靠性和适应性。未来,该研究有望推动多智能体系统在复杂任务中的应用,并促进人工智能的整体发展。

📄 摘要(原文)

Across millennia, complex societies have faced the same coordination problem of how to organize collective action among cognitively bounded and informationally incomplete individuals. Different civilizations developed different political institutions to answer the same basic questions of who proposes, who reviews, who executes, and how errors are corrected. We argue that multi-agent systems built on large language models face the same challenge. Their central problem is not only individual intelligence, but collective organization. Historical institutions therefore provide a structured design space for multi-agent architectures, making key trade-offs between efficiency and error correction, centralization and distribution, and specialization and redundancy empirically testable. We translate seven historical political institutions, spanning four canonical governance patterns, into executable multi-agent architectures and evaluate them under identical conditions across three large language models and two benchmarks. We find that governance topology strongly shapes collective performance. Within a single model, the gap between the best and worst institution exceeds 57 percentage points, while the optimal architecture shifts systematically with model capability and task characteristics. These results suggest that collective intelligence will not advance through a single optimal organizational form, but through governance mechanisms that can be reselected and reconfigured as tasks and capabilities evolve. More broadly, this points to a transition from \textbf{self-evolving agents} to the \textbf{self-evolving multi-agent system}. The code is available on \href{https://github.com/cf3i/SocialSystemArena}{GitHub}.