Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks

📄 arXiv: 2411.04468v1 📥 PDF

作者: Adam Fourney, Gagan Bansal, Hussein Mozannar, Cheng Tan, Eduardo Salinas, Erkang, Zhu, Friederike Niedtner, Grace Proebsting, Griffin Bassman, Jack Gerrits, Jacob Alber, Peter Chang, Ricky Loynd, Robert West, Victor Dibia, Ahmed Awadallah, Ece Kamar, Rafah Hosn, Saleema Amershi

分类: cs.AI, cs.MA

发布日期: 2024-11-07


💡 一句话要点

Magentic-One:一个用于解决复杂任务的通用多智能体系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 通用人工智能体 任务规划 智能体协作 开源系统

📋 核心要点

  1. 现有AI智能体在复杂任务中面临规划、多步骤推理、响应新观察以及从错误中恢复的挑战。
  2. Magentic-One采用多智能体架构,通过Orchestrator进行任务规划和协调,并利用专业智能体执行具体任务。
  3. Magentic-One在多个基准测试中达到与SOTA相当的性能,且模块化设计易于扩展和维护。

📝 摘要(中文)

本文介绍了一个高性能的开源智能体系统Magentic-One,用于解决复杂任务。Magentic-One采用多智能体架构,其中主导智能体Orchestrator负责规划、跟踪进度以及重新规划以从错误中恢复。在任务执行过程中,Orchestrator指导其他专业智能体执行所需任务,例如操作Web浏览器、导航本地文件或编写和执行Python代码。实验表明,Magentic-One在GAIA、AssistantBench和WebArena三个具有挑战性的智能体基准测试中,性能与最先进水平相当。Magentic-One无需修改核心智能体能力或协作方式即可实现这些结果,展示了通用智能体系统方面的进展。此外,Magentic-One的模块化设计允许在不进行额外提示调整或训练的情况下添加或删除智能体,从而简化了开发并使其可扩展到未来的场景。我们提供Magentic-One的开源实现,并包含AutoGenBench,这是一个用于智能体评估的独立工具。AutoGenBench提供内置的重复和隔离控制,以严格和受控的方式运行智能体基准测试。Magentic-One、AutoGenBench以及Magentic-One的详细经验性能评估,包括消融研究和错误分析,可在https://aka.ms/magentic-one 获得。

🔬 方法详解

问题定义:论文旨在解决通用人工智能体在复杂任务处理中的局限性。现有方法通常难以有效规划、执行多步骤推理、适应新观察以及从错误中恢复。这些痛点限制了AI智能体在实际场景中的应用。

核心思路:论文的核心思路是构建一个多智能体系统,通过分工协作来解决复杂任务。主导智能体(Orchestrator)负责全局规划和任务分解,而专业智能体则负责执行具体的子任务。这种分工协作的设计旨在提高任务完成的效率和鲁棒性。

技术框架:Magentic-One的整体架构包含一个Orchestrator和多个专业智能体。Orchestrator负责接收任务、进行规划、跟踪进度、并在必要时进行重新规划。专业智能体则根据Orchestrator的指令,执行诸如网页浏览、文件导航、代码编写和执行等具体任务。整个流程是一个迭代的过程,Orchestrator根据专业智能体的反馈不断调整计划。

关键创新:Magentic-One的关键创新在于其多智能体架构和模块化设计。这种架构允许将复杂任务分解为更小的、可管理的子任务,并由专门的智能体来处理。模块化设计使得系统可以轻松地添加或删除智能体,而无需进行额外的提示调整或训练。这大大提高了系统的灵活性和可扩展性。

关键设计:Magentic-One的关键设计包括Orchestrator的规划算法、智能体之间的通信协议以及专业智能体的具体实现。Orchestrator的规划算法需要能够有效地分解任务并分配给合适的智能体。智能体之间的通信协议需要保证信息的准确传递和及时反馈。专业智能体的实现需要针对具体的任务进行优化,例如网页浏览智能体需要能够有效地解析网页结构并提取信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Magentic-One在GAIA、AssistantBench和WebArena三个基准测试中取得了与最先进水平相当的性能。值得注意的是,Magentic-One在没有对核心智能体能力或协作方式进行修改的情况下实现了这些结果,证明了其通用性和有效性。此外,AutoGenBench提供了一个用于智能体评估的独立工具,可以进行严格和受控的基准测试。

🎯 应用场景

Magentic-One具有广泛的应用前景,例如自动化办公、智能客服、科研助手等。它可以帮助人们更高效地完成各种复杂任务,提高生产力。未来,随着智能体技术的不断发展,Magentic-One有望成为一个通用的智能助手,在各个领域发挥重要作用。

📄 摘要(原文)

Modern AI agents, driven by advances in large foundation models, promise to enhance our productivity and transform our lives by augmenting our knowledge and capabilities. To achieve this vision, AI agents must effectively plan, perform multi-step reasoning and actions, respond to novel observations, and recover from errors, to successfully complete complex tasks across a wide range of scenarios. In this work, we introduce Magentic-One, a high-performing open-source agentic system for solving such tasks. Magentic-One uses a multi-agent architecture where a lead agent, the Orchestrator, plans, tracks progress, and re-plans to recover from errors. Throughout task execution, the Orchestrator directs other specialized agents to perform tasks as needed, such as operating a web browser, navigating local files, or writing and executing Python code. We show that Magentic-One achieves statistically competitive performance to the state-of-the-art on three diverse and challenging agentic benchmarks: GAIA, AssistantBench, and WebArena. Magentic-One achieves these results without modification to core agent capabilities or to how they collaborate, demonstrating progress towards generalist agentic systems. Moreover, Magentic-One's modular design allows agents to be added or removed from the team without additional prompt tuning or training, easing development and making it extensible to future scenarios. We provide an open-source implementation of Magentic-One, and we include AutoGenBench, a standalone tool for agentic evaluation. AutoGenBench provides built-in controls for repetition and isolation to run agentic benchmarks in a rigorous and contained manner -- which is important when agents' actions have side-effects. Magentic-One, AutoGenBench and detailed empirical performance evaluations of Magentic-One, including ablations and error analysis are available at https://aka.ms/magentic-one