Learning to Communicate: Toward End-to-End Optimization of Multi-Agent Language Systems

作者: Ye Yu, Heming Liu, Haibo Jin, Xiaopeng Yuan, Peng Kuang, Haohan Wang

分类: cs.AI, cs.CL, cs.MA

发布日期: 2026-04-23

备注: Under review at COLM 2026

💡 一句话要点

提出DiffMAS框架，端到端优化多智能体语言系统的隐式通信。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 隐式通信 端到端优化 大型语言模型 推理任务

📋 核心要点

现有基于LLM的多智能体系统通常将智能体间通信视为固定接口，限制了整体性能。
DiffMAS将智能体间的隐式通信视为可学习的组件，通过参数高效的监督训练进行端到端优化。
实验表明，DiffMAS在多个推理任务上显著提升了推理精度和解码稳定性，优于现有方法。

📝 摘要（中文）

本文提出DiffMAS，一个用于多智能体系统的训练框架，旨在将隐式通信视为可学习的组件进行端到端优化。现有基于大型语言模型的多智能体系统在复杂推理任务上表现出色，但大多将智能体间的通信视为固定的接口。通过键值缓存等内部表示进行的隐式通信提供了一种有前景的替代方案，但现有方法并未将通信与多智能体推理联合优化。DiffMAS对多智能体隐式轨迹执行参数高效的监督训练，使智能体能够联合学习如何在交互中编码和解释信息。在数学推理、科学问答、代码生成和常识基准测试上的实验表明，DiffMAS在推理精度和解码稳定性方面始终优于单智能体推理、基于文本的多智能体系统和先前的隐式通信方法，在AIME24上达到26.7%，在GPQA-Diamond上达到20.2%，并在推理基准测试中取得了一致的收益。

🔬 方法详解

问题定义：现有基于大型语言模型的多智能体系统，虽然在复杂推理任务上表现出潜力，但通常采用固定的文本通信协议，限制了智能体间信息交换的效率和灵活性。此外，虽然隐式通信（例如通过共享的键值缓存）提供了一种替代方案，但现有方法通常独立优化通信和推理过程，未能实现端到端的联合优化。

核心思路：DiffMAS的核心思想是将多智能体系统中的隐式通信过程视为一个可学习的模块，并将其与智能体的推理过程进行联合优化。通过端到端的训练，DiffMAS允许智能体学习如何更有效地编码、传输和解码信息，从而提升整体的推理性能。这种方法避免了手动设计通信协议的复杂性，并允许智能体根据任务需求自适应地调整通信策略。

技术框架：DiffMAS框架包含多个智能体，每个智能体都配备一个大型语言模型作为其推理引擎。智能体之间通过隐式通信通道进行信息交换，例如共享的键值缓存。训练过程采用参数高效的监督学习方法，对多智能体系统的隐式轨迹进行优化。具体而言，DiffMAS使用监督学习来指导智能体学习如何将信息编码到隐式通信通道中，以及如何从通道中解码信息。

关键创新：DiffMAS的关键创新在于其端到端的训练方式，它允许智能体联合学习通信和推理策略。与传统的将通信视为固定接口的方法不同，DiffMAS将通信视为一个可学习的组件，并将其与推理过程进行集成。此外，DiffMAS采用参数高效的训练方法，降低了训练成本，并提高了模型的泛化能力。

关键设计：DiffMAS使用监督学习来训练智能体。损失函数的设计旨在鼓励智能体学习有效的通信策略，并提高推理精度。例如，可以使用交叉熵损失来衡量智能体预测结果与真实标签之间的差异。此外，还可以使用正则化项来防止过拟合，并提高模型的泛化能力。具体的网络结构取决于所使用的语言模型和隐式通信通道的类型。例如，可以使用Transformer模型作为智能体的推理引擎，并使用键值缓存作为隐式通信通道。

🖼️ 关键图片

📊 实验亮点

DiffMAS在多个推理基准测试中取得了显著的性能提升。在AIME24数学推理任务上，DiffMAS的准确率达到了26.7%，在GPQA-Diamond科学问答任务上达到了20.2%。与单智能体推理、基于文本的多智能体系统以及先前的隐式通信方法相比，DiffMAS在推理精度和解码稳定性方面均表现出明显的优势。这些实验结果表明，DiffMAS是一种有效的多智能体通信优化方法。

🎯 应用场景

DiffMAS框架具有广泛的应用前景，可应用于需要多智能体协作的复杂推理任务，例如科学研究、金融分析、软件开发等。通过优化智能体间的通信，DiffMAS可以提高协作效率和决策质量，从而在这些领域创造更大的价值。此外，DiffMAS还可以应用于人机协作系统，帮助人类更好地与AI智能体进行沟通和协作。

📄 摘要（原文）

Multi-agent systems built on large language models have shown strong performance on complex reasoning tasks, yet most work focuses on agent roles and orchestration while treating inter-agent communication as a fixed interface. Latent communication through internal representations such as key-value caches offers a promising alternative to text-based protocols, but existing approaches do not jointly optimize communication with multi-agent reasoning. Therefore we propose DiffMAS, a training framework that treats latent communication as a learnable component of multi-agent systems. DiffMAS performs parameter-efficient supervised training over multi-agent latent trajectories, enabling agents to jointly learn how information should be encoded and interpreted across interactions. Experiments on mathematical reasoning, scientific QA, code generation, and commonsense benchmarks show that DiffMAS consistently improves reasoning accuracy and decoding stability over single-agent inference, text-based multi-agent systems, and prior latent communication methods, achieving 26.7% on AIME24, 20.2% on GPQA-Diamond, and consistent gains across reasoning benchmarks.

Learning to Communicate: Toward End-to-End Optimization of Multi-Agent Language Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理