Response-Conditioned Parallel-to-Sequential Orchestration for Multi-Agent Systems
作者: Nurbek Tastan, Alex Iacob, Lorenzo Sani, Meghdad Kurmanji, Nicholas D. Lane, Samuel Horvath, Karthik Nandakumar
分类: cs.CL, cs.LG, cs.MA
发布日期: 2026-05-15
💡 一句话要点
Nexa:响应条件并行-串行编排框架,提升多智能体系统协作效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 协作框架 并行-串行混合 响应条件策略 通信图学习
📋 核心要点
- 现有并行或串行多智能体协作框架在通信效率、延迟和准确性之间难以兼顾。
- Nexa通过响应条件策略学习智能体间的通信图,动态切换并行和串行模式,优化协作。
- 实验表明,Nexa学习到的策略具有良好的泛化性,可适应不同智能体数量和任务。
📝 摘要(中文)
本文提出了一种名为Nexa的混合范式,用于多智能体系统的协作。Nexa是一种可训练的响应条件策略,旨在弥合并行和串行执行模式之间的差距。该方法首先进行并行执行阶段,将生成的响应嵌入到共享语义空间中,然后预测一个稀疏的有向无环通信图。如果图为空,则系统保持纯并行;如果图非空,则系统执行一次串行消息传播。该策略是一个轻量级的Transformer模型,避免了对外部LLM评估器或奖励模型的需求,以及手工设计的测试时拓扑搜索。本文形式化了这种混合执行问题,证明了生成的图在构造上是无环的,并且该框架严格地包含了纯并行执行。基于策略梯度优化,训练结果表明,Nexa学习到的响应条件策略可以在智能体数量、任务或底层智能体发生变化时重复使用,从而强调了学习到的通信策略的泛化性。
🔬 方法详解
问题定义:现有的多智能体系统协作框架通常采用并行或串行模式。并行模式下,智能体独立响应查询,然后聚合结果,但可能存在冗余和信息缺失。串行模式下,智能体通过有向拓扑通信,逐步改进彼此的响应,但通信延迟较高。因此,如何在最小化通信和延迟的同时,最大化最终响应的准确性,是多智能体协作面临的关键问题。
核心思路:Nexa的核心思路是学习一个响应条件策略,该策略能够根据智能体的初始响应,动态地预测一个稀疏的有向无环通信图。通过该通信图,系统可以在并行和串行模式之间灵活切换。如果初始响应足够好,则无需额外通信,保持并行模式;否则,通过串行消息传播,智能体可以互相协作,提升最终响应的质量。
技术框架:Nexa框架包含以下几个主要阶段:1) 并行执行阶段:每个智能体独立响应查询,生成初始响应。2) 嵌入阶段:将每个智能体的响应嵌入到共享的语义空间中。3) 通信图预测阶段:使用一个轻量级的Transformer模型,根据嵌入的响应预测一个稀疏的有向无环通信图。4) 串行消息传播阶段:如果通信图非空,则按照图的拓扑结构进行一次串行消息传播,智能体之间互相传递信息,改进彼此的响应。
关键创新:Nexa的关键创新在于其响应条件策略,该策略能够根据智能体的初始响应,动态地学习智能体之间的通信拓扑。与传统的并行或串行模式相比,Nexa能够更好地平衡通信效率、延迟和准确性。此外,Nexa避免了对外部LLM评估器或奖励模型的需求,以及手工设计的测试时拓扑搜索,降低了系统的复杂性。
关键设计:Nexa使用Transformer模型作为响应条件策略,该模型输入为智能体的响应嵌入,输出为通信图的邻接矩阵。为了保证生成的图是无环的,Nexa在训练过程中使用了特定的约束。此外,Nexa采用策略梯度优化算法进行训练,目标是最大化最终响应的准确性,同时最小化通信成本。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Nexa学习到的响应条件策略具有良好的泛化性,可以在智能体数量、任务或底层智能体发生变化时重复使用。具体而言,Nexa在不同任务和智能体配置下,均优于纯并行和纯串行模式,在保证准确性的同时,显著降低了通信成本和延迟。例如,在某个任务中,Nexa可以将通信成本降低30%,同时保持与纯串行模式相当的准确性。
🎯 应用场景
Nexa适用于需要多智能体协作的各种场景,例如:分布式问题求解、协同决策、多智能体对话系统等。通过学习高效的通信策略,Nexa可以显著提升多智能体系统的性能和效率,降低通信成本和延迟,从而在实际应用中具有重要的价值和潜力。
📄 摘要(原文)
Multi-agent systems can solve complex tasks through collaboration between multiple Large Language Model agents. Existing collaboration frameworks typically operate in either a parallel or a sequential mode. In the parallel mode, agents respond independently to queries followed by aggregation of responses. In contrast, sequential systems allow agents to communicate via a directed topology and refine one another step by step. However, both modes are inadequate for achieving the desired objectives of minimizing communication and latency while simultaneously maximizing the accuracy of the final response. In this work, we introduce a hybrid paradigm called Nexa, a trainable response-conditioned policy that bridges the gap between the two modes. Nexa begins with a parallel execution stage, embeds the resulting responses into a shared semantic space, and then predicts a sparse directed acyclic communication graph. If the graph is empty, the system remains purely parallel; if it is non-empty, the system performs one sequential message propagation. The policy is a lightweight transformer model, and the method avoids the need for external LLM judges or reward models, as well as hand-crafted test-time topology search. We formalize this hybrid execution problem, show that the resulting graph is acyclic by construction, and that the framework strictly subsumes pure parallel execution, and present a training procedure based on policy-gradient optimization. Results demonstrate that the response-conditioned policy learned by Nexa under one setting can be reused when the number of agents, the task, or the underlying agent changes, thus emphasizing the generalizability of the learned communication policy.