Agent Context Protocols Enhance Collective Inference

📄 arXiv: 2505.14569v1 📥 PDF

作者: Devansh Bhardwaj, Arjun Beniwal, Shreyas Chaudhari, Ashwin Kalyan, Tanmay Rajpurohit, Karthik R. Narasimhan, Ameet Deshpande, Vishvak Murahari

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-05-20


💡 一句话要点

提出Agent Context Protocols (ACPs)以增强多智能体系统的集体推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 集体推理 智能体通信 协议设计 通用人工智能

📋 核心要点

  1. 现有方法依赖不精确的自然语言进行智能体间协调,限制了复杂交互和互操作性。
  2. 论文提出Agent Context Protocols (ACPs),通过持久执行蓝图和标准化消息模式实现鲁棒的集体推理。
  3. 实验表明,基于ACPs的系统在长程Web辅助和多模态技术报告生成方面达到SOTA性能。

📝 摘要(中文)

人工智能体在编码、推理和多模态理解等复杂任务中变得越来越熟练。然而,构建通用系统需要超越个体智能体,转向集体推理——一种多智能体系统范式,其中具有不同任务专业化的智能体通过结构化的通信和协作相互补充。目前,协调通常使用不精确的、临时的自然语言处理,这限制了复杂的交互并阻碍了与特定领域智能体的互操作性。我们引入了Agent Context Protocols (ACPs):一种领域和智能体无关的结构化协议族,用于智能体间的通信、协调和错误处理。ACPs结合了(i)持久执行蓝图——存储中间智能体输出的显式依赖关系图——与(ii)标准化消息模式,从而实现鲁棒且容错的多智能体集体推理。基于ACP的通用系统达到了最先进的性能:在AssistantBench上,对于长程Web辅助任务,准确率达到28.3%,并提供了同类最佳的多模态技术报告,在人工评估中优于商业AI系统。ACPs具有高度模块化和可扩展性,允许从业者快速构建顶级的通用智能体。

🔬 方法详解

问题定义:现有通用人工智能系统在多智能体协作时,通常依赖于自然语言进行通信和协调。这种方式存在不精确、易出错的问题,限制了复杂交互,阻碍了与领域特定智能体的互操作性,难以实现鲁棒的集体推理。

核心思路:论文的核心思路是引入Agent Context Protocols (ACPs),将智能体间的通信和协作过程形式化、结构化。ACPs通过显式的依赖关系图(持久执行蓝图)来管理智能体间的任务依赖,并使用标准化的消息模式来确保通信的准确性和一致性。这种设计旨在提高多智能体系统的鲁棒性、容错性和可扩展性。

技术框架:ACPs的技术框架包含两个主要组成部分:(1) 持久执行蓝图:这是一个显式的依赖关系图,用于存储中间智能体输出,并定义任务之间的依赖关系。该蓝图确保了任务执行的顺序和数据流的正确性。(2) 标准化消息模式:定义了智能体之间通信的消息格式,包括消息类型、数据结构等。标准化的消息模式提高了通信的准确性和一致性,减少了错误发生的可能性。整个流程包括任务分解、智能体分配、任务执行、结果汇总等步骤。

关键创新:ACPs的关键创新在于其领域和智能体无关的设计,以及将持久执行蓝图和标准化消息模式相结合的方式。与传统的基于自然语言的协调方法相比,ACPs提供了更精确、更可靠的通信机制,从而提高了多智能体系统的整体性能。ACPs的模块化和可扩展性也使其易于集成到不同的应用场景中。

关键设计:ACPs的设计重点在于定义清晰的协议规范,包括消息类型、数据格式、错误处理机制等。持久执行蓝图的设计需要考虑任务依赖关系的复杂性,以及如何有效地存储和管理中间结果。标准化消息模式的设计需要平衡表达能力和易用性,确保智能体能够理解和处理消息。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,基于ACPs的系统在AssistantBench上,对于长程Web辅助任务,准确率达到28.3%,显著优于现有方法。此外,该系统还生成了同类最佳的多模态技术报告,并在人工评估中优于商业AI系统,证明了ACPs的有效性和优越性。

🎯 应用场景

ACPs可应用于各种需要多智能体协作的场景,例如:自动化软件开发、智能客服、智能家居、自动驾驶、科学研究等。通过ACPs,可以构建更强大、更可靠的通用人工智能系统,提高工作效率,降低错误率,并实现更复杂的任务。

📄 摘要(原文)

AI agents have become increasingly adept at complex tasks such as coding, reasoning, and multimodal understanding. However, building generalist systems requires moving beyond individual agents to collective inference -- a paradigm where multi-agent systems with diverse, task-specialized agents complement one another through structured communication and collaboration. Today, coordination is usually handled with imprecise, ad-hoc natural language, which limits complex interaction and hinders interoperability with domain-specific agents. We introduce Agent context protocols (ACPs): a domain- and agent-agnostic family of structured protocols for agent-agent communication, coordination, and error handling. ACPs combine (i) persistent execution blueprints -- explicit dependency graphs that store intermediate agent outputs -- with (ii) standardized message schemas, enabling robust and fault-tolerant multi-agent collective inference. ACP-powered generalist systems reach state-of-the-art performance: 28.3 % accuracy on AssistantBench for long-horizon web assistance and best-in-class multimodal technical reports, outperforming commercial AI systems in human evaluation. ACPs are highly modular and extensible, allowing practitioners to build top-tier generalist agents quickly.