Decomposing Communication Gain and Delay Cost Under Cross-Timestep Delays in Cooperative Multi-Agent Reinforcement Learning

📄 arXiv: 2604.03785 📥 PDF

作者: Zihong Gao, Hongjian Liang, Lei Hao, Liangjun Ke

分类: cs.AI, cs.MA

发布日期: 2026-04-07


💡 一句话要点

针对通信延迟的多智能体强化学习,提出CDCMA框架以解耦通信增益与延迟代价

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 通信延迟 部分可观测马尔可夫博弈 通信增益 延迟代价

📋 核心要点

  1. 现有合作多智能体强化学习方法在处理跨时间步通信延迟时存在信息陈旧和时间错位问题,导致性能下降。
  2. 论文提出CDCMA框架,通过解耦通信增益和延迟代价,指导消息请求、未来观测预测和延迟消息融合,从而缓解延迟带来的负面影响。
  3. 实验结果表明,CDCMA在多个任务和延迟级别上均优于现有方法,并在性能、鲁棒性和泛化性方面均有提升。

📝 摘要(中文)

在部分可观测的合作多智能体强化学习中,通信对于智能体间的协调至关重要。然而,跨时间步的延迟会导致消息在生成后的多个时间步才到达,造成时间上的错位,并使信息在被使用时变得陈旧。本文将此场景形式化为一个延迟通信的部分可观测马尔可夫博弈(DeComm-POMG),并将消息的影响分解为通信增益和延迟代价,从而产生了通信增益和延迟代价(CGDC)指标。进一步,本文建立了一个价值损失界限,表明延迟消息引起的性能下降受限于及时消息和延迟消息所诱导的动作分布之间信息差距的折扣累积。在CGDC的指导下,本文提出了一种actor-critic框架CDCMA,该框架仅在预测的CGDC为正时才请求消息,预测未来的观测以减少消费时的错位,并通过CGDC引导的注意力机制融合延迟消息。在合作导航和捕食者-猎物游戏中无队友视野的变体,以及跨多个延迟级别的SMAC地图上的实验表明,该方法在性能、鲁棒性和泛化性方面均有持续改进,消融实验验证了每个组件的有效性。

🔬 方法详解

问题定义:论文旨在解决合作多智能体强化学习中,由于通信延迟导致的信息过时和时间错位问题。现有方法难以有效利用延迟到达的消息,导致智能体无法及时做出最优决策,从而影响整体协作性能。特别是在部分可观测的环境下,延迟通信会加剧信息不对称,使得智能体更难推断队友的意图和状态。

核心思路:论文的核心思路是将消息的影响分解为“通信增益”和“延迟代价”。通信增益衡量了消息带来的信息价值,而延迟代价则反映了消息因延迟而导致的价值衰减。通过对这两种因素进行权衡,智能体可以决定何时请求消息,以及如何有效地利用延迟到达的消息。这种分解使得智能体能够更加理性地管理通信资源,并适应不同的延迟环境。

技术框架:CDCMA框架是一个actor-critic架构,包含以下主要模块:1) 消息请求模块:根据预测的CGDC值决定是否请求消息。2) 未来观测预测模块:预测队友未来的观测,以减少时间错位。3) 延迟消息融合模块:使用CGDC引导的注意力机制融合延迟到达的消息。整体流程是,每个智能体首先根据自身观测和历史信息预测CGDC,如果CGDC为正,则请求消息。然后,智能体预测队友未来的观测,并使用注意力机制融合延迟到达的消息,最后根据融合后的信息做出决策。

关键创新:论文最重要的创新在于提出了CGDC指标,并将其用于指导消息请求和延迟消息融合。与现有方法不同,CDCMA不是盲目地请求和使用所有消息,而是根据消息的潜在价值和延迟代价进行选择性处理。此外,CDCMA还通过预测未来观测来减少时间错位,进一步提高了通信效率。

关键设计:CGDC的计算涉及对通信带来的信息增益和延迟造成的价值损失进行建模。具体而言,信息增益可以通过比较有无消息情况下的策略差异来估计,而延迟代价则可以通过折扣因子来表示。在注意力机制中,CGDC被用作注意力权重,以控制不同消息对智能体决策的影响程度。损失函数包括actor损失、critic损失和CGDC预测损失,用于训练各个模块。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CDCMA在合作导航、捕食者-猎物和SMAC等任务上均取得了显著的性能提升。例如,在SMAC任务中,CDCMA在不同延迟级别下均优于基线方法,并且在某些情况下,性能提升幅度超过20%。消融实验验证了每个组件的有效性,表明CGDC指标和未来观测预测对于提高通信效率至关重要。

🎯 应用场景

该研究成果可应用于需要多智能体协作且存在通信延迟的各种场景,例如:分布式机器人系统、自动驾驶车辆编队、智能交通管理、以及资源受限的无线通信网络。通过优化通信策略,可以提高系统的整体效率、鲁棒性和可扩展性,从而在实际应用中带来显著的经济和社会效益。

📄 摘要(原文)

Communication is essential for coordination in \emph{cooperative} multi-agent reinforcement learning under partial observability, yet \emph{cross-timestep} delays cause messages to arrive multiple timesteps after generation, inducing temporal misalignment and making information stale when consumed.We formalize this setting as a delayed-communication partially observable Markov game (DeComm-POMG) and decompose a message's effect into \emph{communication gain} and \emph{delay cost}, yielding the Communication Gain and Delay Cost (CGDC) metric.We further establish a value-loss bound showing that the degradation induced by delayed messages is upper-bounded by a discounted accumulation of an information gap between the action distributions induced by timely versus delayed messages.Guided by CGDC, we propose \textbf{CDCMA}, an actor--critic framework that requests messages only when predicted CGDC is positive, predicts future observations to reduce misalignment at consumption, and fuses delayed messages via CGDC-guided attention.Experiments on no-teammate-vision variants of Cooperative Navigation and Predator Prey, and on SMAC maps across multiple delay levels show consistent improvements in performance, robustness, and generalization, with ablations validating each component.