An Empirical Study of Multi-Agent Collaboration for Automated Research

作者: Yang Shen, Zhenyi Yi, Ziyi Zhao, Lijun Sun, Dongyang Li, Chin-Teng Lin, Yuhui Shi

分类: cs.MA, cs.AI

发布日期: 2026-03-31

💡 一句话要点

针对自动化研究，对比多智能体协作框架的性能与稳定性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 自动化研究 机器学习优化 协作框架 实证研究

📋 核心要点

现有自动化研究方法受限于单一LLM的认知瓶颈，需要探索更有效的多智能体协作框架。
论文对比了子智能体（并行探索）和智能体团队（专家协作）两种架构，研究其在不同计算资源下的表现。
实验表明，子智能体架构更稳定，适合快速优化；智能体团队架构更深入，适合复杂任务，但更脆弱。

📝 摘要（中文）

随着人工智能代理的发展，研究重心正从单一大型语言模型（LLM）迅速转向多智能体系统（MAS），以克服自动化研究中的认知瓶颈。然而，针对这些自主代理的最佳多智能体协调框架仍有待探索。本文提出了一项系统的实证研究，旨在调查不同多智能体结构在自动化机器学习优化中的相对效能。我们利用一个严格控制的、基于执行的测试平台，配备Git worktree隔离和显式全局内存，将单智能体基线与两种多智能体范式进行基准测试：子智能体架构（并行探索与事后整合）和智能体团队架构（具有预执行移交的专家）。通过在严格固定的计算时间预算下评估这些系统，我们的发现揭示了操作稳定性和理论审议之间的根本权衡。子智能体模式作为一种高度弹性、高吞吐量的搜索引擎，最适合在严格的时间约束下进行广泛、浅层的优化。相反，由于多作者代码生成，智能体团队拓扑结构表现出更高的操作脆弱性，但在扩展的计算预算下，实现了复杂架构重构所需的深度理论对齐。这些经验性见解为设计未来的自动研究系统提供了可操作的指导，提倡动态路由架构，使其协作结构适应实时任务的复杂性。

🔬 方法详解

问题定义：论文旨在解决自动化机器学习优化中，如何选择合适的多智能体协作框架的问题。现有方法主要依赖单智能体或未经充分优化的多智能体系统，无法充分利用计算资源，并且缺乏对不同协作模式优劣势的深入理解。现有方法的痛点在于缺乏对不同多智能体架构在不同计算资源约束下的性能和稳定性的系统性评估。

核心思路：论文的核心思路是通过实证研究，对比不同多智能体架构在自动化机器学习优化任务中的表现，揭示其在操作稳定性和理论审议之间的权衡。通过控制计算资源，观察不同架构的性能差异，从而为未来的自动研究系统设计提供指导。

技术框架：论文构建了一个基于执行的测试平台，该平台配备了Git worktree隔离和显式全局内存，以确保实验的可重复性和公平性。该平台用于评估单智能体基线、子智能体架构（并行探索与事后整合）和智能体团队架构（具有预执行移交的专家）。实验中，所有系统都在严格固定的计算时间预算下运行，并评估其在自动化机器学习优化任务中的性能。

关键创新：论文的关键创新在于对多智能体协作框架进行了系统性的实证研究，揭示了不同架构在操作稳定性和理论审议之间的权衡。通过对比子智能体和智能体团队两种架构，论文为未来的自动研究系统设计提供了可操作的指导，并提出了动态路由架构的概念，使其协作结构能够适应实时任务的复杂性。

关键设计：实验中，计算时间预算被严格控制，以模拟实际应用中的资源约束。Git worktree隔离用于确保每个智能体的代码修改不会影响其他智能体，从而保证实验的公平性。显式全局内存用于在智能体之间共享信息，促进协作。论文还详细描述了子智能体和智能体团队架构的具体实现方式，包括智能体的角色分配、通信协议和代码整合策略。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在严格的时间约束下，子智能体架构表现出更高的操作稳定性和吞吐量，适合进行快速、浅层的优化。而在扩展的计算预算下，智能体团队架构能够实现更深入的理论对齐，适合进行复杂的架构重构。这些发现为未来的自动研究系统设计提供了重要的参考依据。

🎯 应用场景

该研究成果可应用于自动化机器学习、自动软件工程、自动科学发现等领域。通过选择合适的多智能体协作框架，可以显著提高自动化研究的效率和质量，加速新技术的研发和应用。未来的自动研究系统可以根据任务的复杂度和计算资源，动态选择或切换不同的协作模式，以实现最佳性能。

📄 摘要（原文）

As AI agents evolve, the community is rapidly shifting from single Large Language Models (LLMs) to Multi-Agent Systems (MAS) to overcome cognitive bottlenecks in automated research. However, the optimal multi-agent coordination framework for these autonomous agents remains largely unexplored. In this paper, we present a systematic empirical study investigating the comparative efficacy of distinct multi-agent structures for automated machine learning optimization. Utilizing a rigorously controlled, execution-based testbed equipped with Git worktree isolation and explicit global memory, we benchmark a single-agent baseline against two multi-agent paradigms: a subagent architecture (parallel exploration with post-hoc consolidation) and an agent team architecture (experts with pre-execution handoffs). By evaluating these systems under strictly fixed computational time budgets, our findings reveal a fundamental trade-off between operational stability and theoretical deliberation. The subagent mode functions as a highly resilient, high-throughput search engine optimal for broad, shallow optimizations under strict time constraints. Conversely, the agent team topology exhibits higher operational fragility due to multi-author code generation but achieves the deep theoretical alignment necessary for complex architectural refactoring given extended compute budgets. These empirical insights provide actionable guidelines for designing future autoresearch systems, advocating for dynamically routed architectures that adapt their collaborative structures to real-time task complexity.

An Empirical Study of Multi-Agent Collaboration for Automated Research

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理