Multi-Agent Decision-Focused Learning via Value-Aware Sequential Communication

📄 arXiv: 2604.08944v1 📥 PDF

作者: Benjamin Amoh, Geoffrey Parker, Wesley Marrero

分类: cs.LG, cs.MA

发布日期: 2026-04-10

备注: 15 pages, 6 figures, 3 tables. Includes appendix. Submitted to ICML 2026. Code available at https://github.com/AmohBen1/seqcomm_dfl


💡 一句话要点

提出SeqComm-DFL以解决多智能体决策中的信息共享问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体系统 决策优化 信息共享 价值感知 顺序通信 QMIX因子化 协作任务 隐式微分

📋 核心要点

  1. 现有方法在多智能体协调中往往优化中间目标,未能有效提升决策质量,导致信息共享不足。
  2. 论文提出SeqComm-DFL,通过价值感知的消息生成与顺序Stackelberg条件,优化决策质量,提升任务表现。
  3. 在协作医疗和StarCraft多智能体挑战基准上,SeqComm-DFL实现了四到六倍的累计奖励提升和超过13%的胜率改善。

📝 摘要(中文)

在部分可观测的多智能体协调中,智能体需要共享互补的私人信息。虽然现有方法优化消息以实现中间目标(如重建准确性或互信息),但我们提出了SeqComm-DFL,将顺序通信与决策聚焦学习结合,以提升任务表现。该方法采用价值感知的消息生成与顺序Stackelberg条件,消息优先生成以最大化接收者的决策质量。我们扩展了最优模型设计,结合QMIX因子化,支持高效的端到端训练。通过信息论界限证明,通信价值与协调差距成正比,并在双层优化中实现了$ extmath{O}(1/ extmath{ extsqrt{T}})$的收敛性。在协作医疗和StarCraft多智能体挑战基准上,SeqComm-DFL的累计奖励提高了四到六倍,胜率提升超过13%。

🔬 方法详解

问题定义:本论文旨在解决多智能体在部分可观测环境下的协调问题,现有方法往往侧重于优化中间目标,未能有效提升决策质量,导致信息共享不足。

核心思路:SeqComm-DFL通过价值感知的消息生成与顺序Stackelberg条件,确保消息优先生成以最大化接收者的决策质量,从而提升整体任务表现。

技术框架:该方法的整体架构包括消息生成模块、决策优化模块和训练过程。消息生成模块负责生成有价值的通信内容,决策优化模块则基于接收到的消息进行决策。训练过程采用QMIX因子化,支持高效的端到端训练。

关键创新:SeqComm-DFL的主要创新在于将顺序通信与决策聚焦学习相结合,确保消息生成优先考虑接收者的决策质量,这一设计与现有方法的本质区别在于其优化目标的转变。

关键设计:在关键设计方面,采用了价值感知的消息生成机制,结合顺序Stackelberg条件,确保消息的优先级。同时,训练过程中引入了隐式微分技术,以支持高效的模型训练。具体的损失函数和网络结构细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

在实验中,SeqComm-DFL在协作医疗和StarCraft多智能体挑战基准上表现出色,累计奖励提升了四到六倍,胜率提高超过13%。这些结果表明,该方法在信息不对称条件下实现了更有效的协调策略。

🎯 应用场景

该研究的潜在应用领域包括多智能体系统的协作任务,如无人机编队、智能交通管理和协作医疗等。通过提升智能体间的信息共享与决策质量,SeqComm-DFL能够在复杂环境中实现更高效的协作,具有重要的实际价值和未来影响。

📄 摘要(原文)

Multi-agent coordination under partial observability requires agents to share complementary private information. While recent methods optimize messages for intermediate objectives (e.g., reconstruction accuracy or mutual information), rather than decision quality, we introduce \textbf{SeqComm-DFL}, unifying the sequential communication with decision-focused learning for task performance. Our approach features \emph{value-aware message generation with sequential Stackelberg conditioning}: messages maximize receiver decision quality and are generated in priority order, with agents conditioning on their predecessors. The \emph{guidance potential} determined by their prosocial ordering. We extend Optimal Model Design to communication-augmented world models with QMIX factorization, enabling efficient end-to-end training via implicit differentiation. We prove information-theoretic bounds showing that communication value scales with coordination gaps and establish $\mathcal{O}(1/\sqrt{T})$ convergence for the bilevel optimization, where $T$ denotes the number of training iterations. On collaborative healthcare and StarCraft Multi-Agent Challenge (SMAC) benchmarks, SeqComm-DFL achieves four to six times higher cumulative rewards and over 13\% win rate improvements, enabling coordination strategies inaccessible under information asymmetry.