Multi-Agent Collaboration via Cross-Team Orchestration

📄 arXiv: 2406.08979v2 📥 PDF

作者: Zhuoyun Du, Chen Qian, Wei Liu, Zihao Xie, YiFei Wang, Rennai Qiu, Yufan Dang, Weize Chen, Cheng Yang, Ye Tian, Xuantang Xiong, Lei Han

分类: cs.CL, cs.AI, cs.MA, cs.SE

发布日期: 2024-06-13 (更新: 2025-06-06)

备注: Accepted to Findings of ACL 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出Croto,通过跨团队协作编排提升LLM驱动的智能体在复杂任务中的表现。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 跨团队协作 大型语言模型 软件开发 故事生成

📋 核心要点

  1. 现有智能体团队在复杂任务中,每个阶段仅产生单一结果,限制了探索多种解决方案路径的可能性,导致结果欠佳。
  2. Croto框架通过构建多个独立但协作的智能体团队,并行探索不同的解决方案,并通过跨团队交流提升整体性能。
  3. 实验表明,Croto在软件开发和故事生成任务中均优于现有方法,展示了其有效性和泛化能力。

📝 摘要(中文)

大型语言模型(LLM)对各个领域产生了显著影响,尤其是在组织化的LLM驱动的自主智能体方面。一个典型的场景是软件开发,其中智能体可以像人类一样在团队中协作,遵循预定义的阶段按顺序完成子任务。然而,对于一个智能体团队,每个阶段仅产生一种可能的结果。这导致仅完成一个开发链,从而失去了探索解决方案空间内多个潜在决策路径的机会,最终导致次优结果或大量的试错。为了解决这个问题,我们引入了跨团队编排(Croto),这是一个可扩展的多团队框架,它使经过编排的团队能够共同提出各种面向任务的解决方案,并在自我独立的同时进行跨团队协作的环境中交互他们的见解,以生成卓越的解决方案。实验表明,与最先进的基线相比,软件质量显着提高。我们还在故事生成任务上测试了我们的框架,这证明了我们的框架在其他领域具有良好的泛化能力。代码和数据可在https://github.com/OpenBMB/ChatDev/tree/macnet获得。

🔬 方法详解

问题定义:现有基于LLM的智能体团队在解决复杂任务时,通常采用串行化的流程,每个阶段只有一个团队负责,产生单一的解决方案。这种方式限制了对问题空间的多样性探索,容易陷入局部最优解,导致最终结果的质量不高,需要大量的试错才能找到较好的方案。

核心思路:Croto的核心思路是引入多个智能体团队,每个团队独立地探索解决方案空间,并通过跨团队的协作和信息共享,互相借鉴和改进,从而提升整体的解决方案质量。通过并行探索不同的决策路径,可以更全面地覆盖问题空间,找到更优的解决方案。

技术框架:Croto框架包含多个独立的智能体团队,每个团队负责完成相同的任务,但可以采用不同的策略和方法。团队之间通过一个中心化的协调机制进行信息交流,例如共享中间结果、提出改进建议等。每个团队的输出会被汇总和评估,最终选择最优的解决方案。框架主要包含以下阶段:任务分解、团队构建、并行探索、跨团队协作、结果评估与选择。

关键创新:Croto的关键创新在于引入了跨团队协作的机制,打破了传统智能体团队的单线式工作模式。通过多个团队并行探索,可以更全面地覆盖问题空间,避免陷入局部最优解。同时,跨团队的协作可以促进知识共享和创新,提升整体的解决方案质量。

关键设计:Croto的关键设计包括:1) 如何构建具有多样性的智能体团队,例如采用不同的LLM模型、不同的prompt策略等;2) 如何设计有效的跨团队协作机制,例如信息共享的频率、协作的方式等;3) 如何评估和选择最优的解决方案,例如采用人工评估、自动评估等。具体的参数设置和损失函数取决于具体的应用场景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Croto框架在软件开发任务中,相比于现有的最佳方法,显著提高了软件质量。此外,在故事生成任务中,Croto也展现出了良好的泛化能力,证明了其在不同领域的有效性。具体的性能提升数据在论文中有详细描述。

🎯 应用场景

Croto框架具有广泛的应用前景,可以应用于软件开发、产品设计、内容创作等需要复杂决策和协作的领域。通过引入多个智能体团队并行探索,可以显著提升解决方案的质量和效率,降低试错成本。未来,该框架还可以扩展到更多领域,例如科学研究、金融分析等。

📄 摘要(原文)

Large Language Models (LLMs) have significantly impacted various domains, especially through organized LLM-driven autonomous agents. A representative scenario is in software development, where agents can collaborate in a team like humans, following predefined phases to complete sub-tasks sequentially. However, for an agent team, each phase yields only one possible outcome. This results in the completion of only one development chain, thereby losing the opportunity to explore multiple potential decision paths within the solution space. Consequently leading to suboptimal results or extensive trial and error. To address this, we introduce Cross-Team Orchestration (Croto), a scalable multi-team framework that enables orchestrated teams to jointly propose various task-oriented solutions and interact with their insights in a self-independence while cross-team collaboration environment for superior solutions generation. Experiments reveal a notable increase in software quality compared to state-of-the-art baselines. We further tested our framework on story generation tasks, which demonstrated a promising generalization ability of our framework in other domains. The code and data is available at https://github.com/OpenBMB/ChatDev/tree/macnet