Differentiable Mixture-of-Agents Incentivizes Swarm Intelligence of Large Language Models

作者: Xingjian Wu, Junkai Lu, Siyu Yan, Xiangfei Qiu, Jilin Hu, Chenjuan Guo, Bin Yang

分类: cs.LG

发布日期: 2026-05-15

💡 一句话要点

提出可微混合Agent（DMoA），激励大语言模型涌现群体智能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多Agent系统 大语言模型 可微路由 自适应协作 群体智能

📋 核心要点

现有MAS依赖预定义的通信拓扑，限制了其灵活性和对动态任务的适应性。
DMoA通过动态路由和激活Agent，隐式模拟通信拓扑，自适应任务需求。
实验表明，DMoA在多个基准测试中达到SOTA，并具有效率、鲁棒性和集成能力。

📝 摘要（中文）

本文提出了一种可微混合Agent（DMoA）框架，用于实现大语言模型（LLM）在复杂推理任务中的自演化多Agent系统（MAS）。与依赖预定义通信拓扑的现有MAS不同，DMoA在推理过程中动态路由和激活Agent，从而隐式地模拟不同的通信拓扑并适应不断变化的需求。DMoA设计了一种可微的、上下文感知的路由机制，该机制利用循环结构来整合历史和上下文信息，并逐步产生稀疏的Agent激活。此外，引入预测熵作为自监督信号来优化路由过程，从而实现高效的测试时自适应，无需外部标注。在9个基准测试上的大量实验表明，DMoA在实现最先进性能的同时，还表现出强大的效率、鲁棒性和集成能力。

🔬 方法详解

问题定义：现有的大语言模型多Agent系统通常依赖于预定义的或预编译的通信拓扑结构，这限制了它们在面对动态变化的任务需求时的灵活性和适应性。如何使Agent之间的协作方式能够根据上下文和任务自适应地演化，是一个关键问题。

核心思路：DMoA的核心思路是设计一个可微的路由机制，使得在推理的每一步，系统能够动态地选择激活哪些Agent，以及如何将信息从一个Agent传递到另一个Agent。通过这种方式，系统可以隐式地模拟各种不同的通信拓扑，并根据任务的需求进行调整。

技术框架：DMoA框架包含以下主要模块：1) 上下文编码器：用于将当前的任务输入和历史信息编码成一个上下文向量。2) 路由模块：根据上下文向量，动态地选择激活哪些Agent。这个模块是可微的，允许通过梯度下降来优化Agent的选择策略。3) Agent模块：被激活的Agent执行相应的计算，并将结果传递给下一个Agent。4) 输出模块：将所有Agent的输出进行聚合，得到最终的推理结果。整个流程是循环进行的，每一步都会根据上下文动态地调整Agent的激活状态。

关键创新：DMoA最重要的创新点在于其可微的路由机制，这使得系统能够通过梯度下降来学习最优的Agent协作策略。与传统的静态通信拓扑相比，DMoA能够更好地适应动态变化的任务需求。此外，使用预测熵作为自监督信号，无需外部标注即可优化路由过程，提高了效率。

关键设计：DMoA的关键设计包括：1) 使用循环神经网络（RNN）来编码历史信息，使得路由决策能够考虑到之前的推理步骤。2) 使用Gumbel-Softmax技巧来实现可微的Agent选择。3) 使用预测熵作为正则化项，鼓励Agent选择具有高预测置信度的行动。4) 损失函数包括推理任务的监督损失和预测熵损失，共同优化Agent的行为和路由策略。

🖼️ 关键图片

📊 实验亮点

DMoA在9个基准测试中取得了SOTA性能，证明了其有效性。尤其在需要复杂推理的任务上，DMoA的性能提升显著。此外，实验还表明DMoA具有很强的鲁棒性，即使在面对噪声数据或对抗性攻击时，也能保持较高的性能。DMoA还展现出强大的集成能力，可以方便地与其他技术相结合，进一步提升性能。

🎯 应用场景

DMoA具有广泛的应用前景，例如在智能客服、自动化报告生成、复杂问题求解等领域。通过自适应的Agent协作，DMoA能够更好地处理动态变化的任务需求，提高系统的效率和鲁棒性。未来，DMoA可以进一步扩展到更多的领域，例如机器人控制、自动驾驶等。

📄 摘要（原文）

Recent advances in Large Language Models (LLMs) have catalyzed the development of multi-agent systems (MAS) for complex reasoning tasks. However, existing MAS typically rely on pre-defined or pre-compiled communication topologies, which limits their flexibility and adaptability to dynamic task requirements. In this work, we propose Differentiable Mixture-of-Agents (DMoA), a self-evolving multi-agent framework that enables elastic and adaptive agent collaboration during inference. Instead of statically constructing workflows, DMoA dynamically routes and activates agents at each reasoning step, allowing the system to implicitly simulate diverse communication topologies and adapt to evolving demands. To achieve this, we design a differentiable, context-aware routing mechanism that leverages recurrent structures to incorporate historical and contextual information, producing sparse agent activations in a step-wise manner. Furthermore, we introduce predictive entropy as self-supervised signals to optimize the routing process, enabling efficient test-time adaptation without external annotations. Extensive experiments across 9 benchmarks demonstrate that DMoA achieves state-of-the-art performance while exhibiting strong efficiency, robustness, and ensembling capabilities.

Differentiable Mixture-of-Agents Incentivizes Swarm Intelligence of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理