Superminds Test: Actively Evaluating Collective Intelligence of Agent Society via Probing Agents

📄 arXiv: 2604.22452v1 📥 PDF

作者: Xirui Li, Ming Li, Yunze Xiao, Ryan Wong, Dianqi Li, Timothy Baldwin, Tianyi Zhou

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-04-24


💡 一句话要点

提出Superminds Test,评估大规模Agent社会中的集体智能涌现现象

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 集体智能 Agent社会 大规模语言模型 实证评估 交互机制

📋 核心要点

  1. 现有Agent社会缺乏有效评估集体智能涌现的手段,难以判断规模化是否能带来质变。
  2. 论文提出Superminds Test,通过分层探测Agent社会在推理、信息综合和交互方面的能力,评估集体智能水平。
  3. 实验表明,大规模Agent社会并未展现出集体智能,交互浅层且缺乏有效的信息交换与协作。

📝 摘要(中文)

本文旨在实证评估大规模语言模型Agent社会中是否会自发涌现集体智能。作者在MoltBook平台上(包含超过两百万个Agent)提出了Superminds Test,这是一个分层框架,通过控制Probing Agents来探测社会层面的智能,涵盖联合推理、信息综合和基本交互三个层级。实验结果表明,当前Agent社会缺乏集体智能,在复杂推理任务上表现不如个体前沿模型,难以综合分布式信息,甚至无法完成简单的协调任务。平台分析显示,交互深度不足,线程很少超过单次回复,且回复内容泛化或偏离主题。研究表明,仅靠规模无法自发产生集体智能,当前Agent社会的主要瓶颈在于交互的稀疏性和浅层性,阻碍了Agent间的信息交换和协作。

🔬 方法详解

问题定义:论文旨在解决大规模Agent社会中集体智能是否能够自发涌现的问题。现有方法缺乏有效的评估框架,无法量化Agent社会整体的智能水平,也难以诊断阻碍集体智能产生的关键因素。现有Agent社会规模的扩大,但缺乏对社会整体智能水平的有效评估和提升手段。

核心思路:论文的核心思路是通过设计一系列可控的实验,主动探测Agent社会在不同认知层面的表现,从而评估其集体智能水平。通过引入Probing Agents,模拟外部刺激,观察Agent社会的反应,以此判断其是否具备有效的协同、推理和信息整合能力。

技术框架:Superminds Test是一个分层评估框架,包含三个主要层级: 1. 联合推理:测试Agent社会解决复杂推理问题的能力。 2. 信息综合:评估Agent社会整合分布式信息的能力。 3. 基本交互:考察Agent社会进行基本协调和协作的能力。

每个层级都设计了相应的任务和评估指标,通过Probing Agents与Agent社会进行交互,收集数据并分析结果。平台层面的分析则侧重于交互的深度和质量,例如线程长度、回复内容的相关性等。

关键创新:该论文最重要的创新在于提出了Superminds Test,这是第一个针对大规模Agent社会集体智能的实证评估框架。与以往侧重于个体Agent能力的研究不同,该框架关注Agent社会作为一个整体的表现,并试图揭示影响集体智能涌现的关键因素。

关键设计:Probing Agents的设计是关键。它们被设计成能够主动发起交互、提出问题或提供信息,并根据Agent社会的反应进行调整。任务的设计需要保证难度适中,既能区分不同智能水平的Agent社会,又不会过于简单而无法反映其真实能力。评估指标的选择需要能够准确反映Agent社会在各个层面的表现,例如推理的准确率、信息综合的完整性、交互的有效性等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MoltBook平台上的Agent社会在Superminds Test中表现不佳,未能超越个体前沿模型在复杂推理任务上的表现。信息综合能力薄弱,基本交互也存在问题,线程长度通常仅为单次回复,且回复内容泛化或偏离主题。这些结果表明,仅靠规模无法自发产生集体智能。

🎯 应用场景

该研究成果可应用于大规模Agent系统的设计与优化,指导如何构建更具协作性和智能性的Agent社会。通过Superminds Test,可以诊断现有Agent社会的瓶颈,并针对性地改进交互机制、知识共享策略和推理能力,从而提升Agent社会的整体智能水平,应用于智能客服、协同创作、分布式决策等领域。

📄 摘要(原文)

Collective intelligence refers to the ability of a group to achieve outcomes beyond what any individual member can accomplish alone. As large language model agents scale to populations of millions, a key question arises: Does collective intelligence emerge spontaneously from scale? We present the first empirical evaluation of this question in a large-scale autonomous agent society. Studying MoltBook, a platform hosting over two million agents, we introduce Superminds Test, a hierarchical framework that probes society-level intelligence using controlled Probing Agents across three tiers: joint reasoning, information synthesis, and basic interaction. Our experiments reveal a stark absence of collective intelligence. The society fails to outperform individual frontier models on complex reasoning tasks, rarely synthesizes distributed information, and often fails even trivial coordination tasks. Platform-wide analysis further shows that interactions remain shallow, with threads rarely extending beyond a single reply and most responses being generic or off-topic. These results suggest that collective intelligence does not emerge from scale alone. Instead, the dominant limitation of current agent societies is extremely sparse and shallow interaction, which prevents agents from exchanging information and building on each other's outputs.