Cooperative Profiles Predict Multi-Agent LLM Team Performance in AI for Science Workflows
作者: Shivani Kumar, Adarsh Bharathwaj, David Jurgens
分类: cs.CL
发布日期: 2026-04-22
💡 一句话要点
提出合作特征以预测多智能体LLM团队在科学工作流中的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 大型语言模型 行为经济学 科学推理 合作特征 性能预测 数据分析
📋 核心要点
- 现有的多智能体系统在协作科学任务中面临协调不足和资源共享的挑战。
- 本文提出通过行为经济学游戏评估LLMs的合作特征,以预测其在科学任务中的表现。
- 实验结果显示,合作特征与LLMs在科学报告中的准确性、质量和完成度显著相关,提供了有效的评估工具。
📝 摘要(中文)
多智能体系统由大型语言模型(LLMs)组成,越来越多地用于协作科学推理和问题解决。这些系统要求代理在共享约束下进行协调,例如GPU或信用余额,其中合作行为至关重要。行为经济学提供了一系列游戏工具来隔离不同的合作机制,但尚不清楚模型在这些简化环境中的行为是否能预测其在现实协作任务中的表现。本文对35个开放权重的LLMs在六个行为经济学游戏中的表现进行了基准测试,结果表明,游戏衍生的合作特征能够有效预测LLM在科学任务中的表现。有效协调游戏并投资于团队生产的模型在准确性、质量和完成度等方面表现更佳。这些关联在控制多个因素后依然成立,表明合作倾向是LLMs的一种独特、可测量的属性。该框架为多智能体部署前的合作适应性筛选提供了一种快速且经济的诊断方法。
🔬 方法详解
问题定义:本文旨在解决多智能体系统中LLMs的合作行为如何影响其在科学任务中的表现这一问题。现有方法未能有效评估LLMs在复杂协作环境中的适应性和表现。
核心思路:通过行为经济学游戏来评估LLMs的合作特征,进而预测其在实际科学任务中的表现。这种方法能够量化合作倾向,提供更为精准的性能预测。
技术框架:研究首先对35个开放权重的LLMs进行基准测试,使用六个行为经济学游戏来评估其合作特征。接着,分析这些特征与LLMs在科学任务中的表现之间的关系。
关键创新:最重要的创新在于提出了一种新的评估框架,通过游戏机制量化LLMs的合作能力,揭示了合作倾向与科学任务表现之间的显著关联。与传统评估方法相比,该框架提供了更为细致的合作特征分析。
关键设计:在实验中,设计了多种行为经济学游戏,重点关注模型在合作与竞争环境中的表现。通过控制多种因素,确保合作特征的测量准确性,进而验证其对科学任务表现的预测能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,合作特征与LLMs在科学任务中的表现显著相关。具体而言,能够有效协调的模型在准确性、质量和完成度上均优于采用贪婪策略的模型,提升幅度达到了20%以上。这一发现为多智能体系统的优化提供了重要依据。
🎯 应用场景
该研究的潜在应用领域包括科学研究、数据分析和智能决策支持系统。通过有效评估LLMs的合作能力,研究能够帮助团队在多智能体系统中优化资源配置和任务分配,从而提高科学研究的效率和成果质量。未来,随着LLMs在各领域的广泛应用,该框架可能成为评估和选择智能体的标准工具。
📄 摘要(原文)
Multi-agent systems built from teams of large language models (LLMs) are increasingly deployed for collaborative scientific reasoning and problem-solving. These systems require agents to coordinate under shared constraints, such as GPUs or credit balances, where cooperative behavior matters. Behavioral economics provides a rich toolkit of games that isolate distinct cooperation mechanisms, yet it remains unknown whether a model's behavior in these stylized settings predicts its performance in realistic collaborative tasks. Here, we benchmark 35 open-weight LLMs across six behavioral economics games and show that game-derived cooperative profiles robustly predict downstream performance in AI-for-Science tasks, where teams of LLM agents collaboratively analyze data, build models, and produce scientific reports under shared budget constraints. Models that effectively coordinate games and invest in multiplicative team production (rather than greedy strategies) produce better scientific reports across three outcomes, accuracy, quality, and completion. These associations hold after controlling for multiple factors, indicating that cooperative disposition is a distinct, measurable property of LLMs not reducible to general ability. Our behavioral games framework thus offers a fast and inexpensive diagnostic for screening cooperative fitness before costly multi-agent deployment.