Multi-agent AI systems outperform human teams in creativity
作者: Tiancheng Hu, Yixuan Jiang, Haotian Li, José Hernández-Orallo, Xing Xie, Nigel Collier, David Stillwell, Luning Sun
分类: cs.CL, cs.AI
发布日期: 2026-05-18
💡 一句话要点
多智能体LLM系统在创造力方面超越人类团队,解决创新难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 大型语言模型 创造力 团队协作 语义空间分析
📋 核心要点
- 现有AI在认知任务上媲美甚至超越人类,但创造力仍是挑战,亟需提升AI的创造能力。
- 论文提出多智能体LLM团队,通过模拟团队协作,激发LLM的创造性潜力。
- 实验证明,多智能体LLM团队在创造力方面显著优于人类团队,尤其是在新颖性方面。
📝 摘要(中文)
本文研究表明,多智能体LLM团队不仅优于单个智能体,而且在创造力方面显著超越人类团队(Cohen's d=1.50)。研究基于4541个多智能体LLM创意和341个人类团队创意,涵盖六个不同的问题解决任务。这种优势主要体现在新颖性上,同时保持了相当的实用性。通过将对话表示为语义空间中的路径,研究分析了LLM和人类团队的生成过程。结果表明,低全局连贯性(对话主题广泛)有利于创造性,但LLM团队受益于高效探索(高语义扩散,短路径),而人类团队受益于流畅对话(高局部连贯性,频繁转换)。此外,模型选择和讨论结构是影响LLM对话动态的正交设计因素,共同解释了26.8%的方差,为系统性开发具有增强创造力的多智能体系统铺平了道路。
🔬 方法详解
问题定义:论文旨在解决如何提升AI系统的创造力,使其在创新任务中能够超越人类团队。现有方法,如单智能体LLM,在创造力方面存在局限性,无法充分模拟人类团队协作的优势。因此,如何设计有效的多智能体系统,以激发LLM的创造性潜力,是本文要解决的核心问题。
核心思路:论文的核心思路是构建多智能体LLM团队,通过模拟人类团队的讨论和协作过程,促进不同智能体之间的思想碰撞和融合,从而产生更具创造性的想法。这种方法借鉴了人类团队协作的优势,例如集思广益、互相启发等,并将其应用于LLM系统中。
技术框架:整体框架包括以下几个主要模块:1) 问题定义模块:明确需要解决的创新问题。2) 智能体配置模块:选择合适的LLM模型,并为每个智能体分配不同的角色或知识背景。3) 对话生成模块:设计对话结构,例如自由讨论、角色扮演等,引导智能体进行对话和交流。4) 创意评估模块:使用指标(如新颖性和实用性)评估生成的创意。5) 分析模块:分析对话过程和创意质量,找出影响创造力的关键因素。
关键创新:最重要的技术创新点在于将多智能体协作的思想引入LLM系统,并设计了相应的对话结构和评估方法。与单智能体LLM相比,多智能体系统能够更好地模拟人类团队的创造性过程,从而产生更具创新性的想法。此外,论文还提出了基于语义空间分析的对话过程分析方法,用于理解LLM团队和人类团队的创造性差异。
关键设计:论文的关键设计包括:1) 模型选择:选择了合适的LLM模型作为智能体的基础。2) 对话结构:设计了不同的对话结构,例如自由讨论、角色扮演等,以探索不同的协作模式。3) 评估指标:使用了新颖性和实用性等指标来评估创意的质量。4) 语义空间分析:使用神经语言模型表示将对话表示为语义空间中的路径,并分析路径的特征(如长度、扩散程度等)与创造力的关系。
🖼️ 关键图片
📊 实验亮点
实验结果表明,多智能体LLM团队在创造力方面显著优于人类团队(Cohen's d=1.50)。LLM团队在六个不同的问题解决任务中,产生了4541个创意,而人类团队产生了341个创意。LLM团队的优势主要体现在新颖性上,同时保持了与人类团队相当的实用性。模型选择和讨论结构共同解释了LLM对话动态中26.8%的方差。
🎯 应用场景
该研究成果可应用于各种需要创造性解决问题的领域,例如产品设计、科学研究、市场营销等。通过构建多智能体LLM团队,可以辅助人类进行创新,提高创新效率和质量。未来,该技术有望应用于更广泛的领域,例如教育、娱乐等,为人类带来更多创新性的解决方案。
📄 摘要(原文)
Although artificial intelligence (AI) now matches or exceeds human performance across numerous cognitive tasks, creativity remains a highly contested frontier. As AI systems based on large language models (LLMs) are increasingly adopted in research and innovation, it is essential to understand and augment their creativity. Here we demonstrate that multi-agent LLM teams not only surpass single agents, but also substantially outperform human teams in creativity (Cohen's d=1.50) across 4,541 multi-agent LLM ideas and 341 human-team ideas on six diverse problem-solving tasks. This advantage is driven by novelty while maintaining comparable usefulness. To investigate the generative processes in both groups, we represent conversations as paths through semantic space using neural language model representations. Both LLM and human teams produce more creative ideas when conversations range widely rather than staying centered on a single theme (low global coherence). However, the additional patterns that predict creativity differ: LLM teams benefit from efficient exploration (high semantic spread, shorter paths), while human teams benefit from maintaining smooth conversational flow (high local coherence, frequent pivots). Additionally, we identify model choice and discussion structure as orthogonal design levers that together explain 26.8% of variance in LLM conversational dynamics, paving the way for systematic approaches to developing multi-agent systems with augmented creative capabilities.