Bandwidth-constrained Variational Message Encoding for Cooperative Multi-agent Reinforcement Learning

作者: Wei Duan, Jie Lu, En Yu, Junyu Xuan

分类: cs.LG, cs.MA

发布日期: 2025-12-11 (更新: 2026-02-04)

备注: Accepted by AAMAS 2026 (oral) with appendix

💡 一句话要点

提出BVME：带宽约束下多智能体强化学习的变分消息编码方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 带宽约束 变分推断 消息编码 协同通信

📋 核心要点

现有基于图的MARL方法在带宽约束下，简单降维会显著降低协同性能，缺乏对消息压缩过程的有效控制。
BVME通过变分推断学习消息的压缩表示，利用KL散度正则化，实现对压缩强度的可控调节。
实验表明，BVME在显著降低消息维度的同时，保持甚至提升了MARL的性能，尤其在稀疏通信图上效果更佳。

📝 摘要（中文）

基于图的多智能体强化学习(MARL)通过将智能体建模为节点，通信链路建模为边，从而在部分可观测性下实现协同行为。虽然最近的方法擅长学习稀疏的协同图——确定谁与谁通信——但它们没有解决在硬带宽约束下应该传输什么信息的问题。我们研究了这种带宽受限的情况，并表明简单的降维会持续降低协同性能。硬带宽约束迫使选择性编码，但确定性投影缺乏控制压缩如何发生的机制。我们引入了带宽约束的变分消息编码(BVME)，这是一个轻量级模块，它将消息视为从学习到的高斯后验中采样的样本，并通过KL散度正则化到无信息的先验。BVME的变分框架通过可解释的超参数，对压缩强度提供了有原则的、可调的控制，直接约束了用于决策的表示。在SMACv1、SMACv2和MPE基准测试中，BVME在使用的消息维度减少67-83%的情况下，实现了相当或更好的性能，在消息质量对协同至关重要的稀疏图上，增益最为显著。消融实验表明，对带宽的敏感性呈U型，BVME在极端比率下表现出色，同时增加了最小的开销。

🔬 方法详解

问题定义：在多智能体强化学习中，如何在带宽受限的情况下，有效地进行智能体之间的信息交流，以保证协同决策的性能。现有方法，如直接降维，会损失重要信息，导致性能下降。确定性投影方法缺乏对压缩过程的控制，难以适应不同的带宽约束。

核心思路：将消息编码视为一个变分推断问题，学习消息的压缩表示。通过引入KL散度正则化，约束压缩后的消息分布接近一个无信息的先验分布，从而实现对压缩强度的可控调节。这种方法允许智能体在有限的带宽下，选择性地编码和传输最重要的信息。

技术框架：BVME作为一个轻量级模块，可以嵌入到现有的基于图的MARL框架中。其主要流程包括：1) 智能体生成原始消息；2) BVME将原始消息编码为高斯分布的参数（均值和方差）；3) 从该高斯分布中采样得到压缩后的消息；4) 将压缩后的消息传递给其他智能体；5) 接收消息的智能体利用接收到的消息进行决策。

关键创新：BVME的核心创新在于将消息编码问题转化为变分推断问题，并利用KL散度正则化来控制压缩强度。与传统的确定性压缩方法相比，BVME能够学习到更有效的消息表示，并在带宽约束下保持良好的性能。此外，BVME的超参数具有可解释性，可以直接控制压缩的程度。

关键设计：BVME使用一个神经网络来预测高斯分布的均值和方差。KL散度损失函数用于约束压缩后的消息分布接近一个标准高斯分布。通过调整KL散度损失的权重，可以控制压缩的强度。网络结构采用轻量级设计，以减少计算开销。具体来说，可以使用多层感知机（MLP）作为编码器和解码器。

🖼️ 关键图片

📊 实验亮点

实验结果表明，BVME在SMACv1、SMACv2和MPE等多个基准测试中，能够在消息维度减少67-83%的情况下，达到与现有方法相当甚至更优的性能。尤其是在稀疏通信图上，BVME的优势更加明显。消融实验还表明，BVME对带宽的敏感性呈U型，在极端带宽约束下表现出色，同时增加的计算开销很小。

🎯 应用场景

该研究成果可应用于资源受限的分布式机器人系统、无线传感器网络、以及需要高效通信的多智能体协作场景。例如，在带宽有限的无人机集群中，BVME可以帮助无人机选择性地传输关键信息，从而提高集群的协同效率和任务完成质量。此外，该方法还可以应用于边缘计算环境下的多智能体系统，降低通信成本，提升系统整体性能。

📄 摘要（原文）

Graph-based multi-agent reinforcement learning (MARL) enables coordinated behavior under partial observability by modeling agents as nodes and communication links as edges. While recent methods excel at learning sparse coordination graphs-determining who communicates with whom-they do not address what information should be transmitted under hard bandwidth constraints. We study this bandwidth-limited regime and show that naive dimensionality reduction consistently degrades coordination performance. Hard bandwidth constraints force selective encoding, but deterministic projections lack mechanisms to control how compression occurs. We introduce Bandwidth-constrained Variational Message Encoding (BVME), a lightweight module that treats messages as samples from learned Gaussian posteriors regularized via KL divergence to an uninformative prior. BVME's variational framework provides principled, tunable control over compression strength through interpretable hyperparameters, directly constraining the representations used for decision-making. Across SMACv1, SMACv2, and MPE benchmarks, BVME achieves comparable or superior performance while using 67--83% fewer message dimensions, with gains most pronounced on sparse graphs where message quality critically impacts coordination. Ablations reveal U-shaped sensitivity to bandwidth, with BVME excelling at extreme ratios while adding minimal overhead.

Bandwidth-constrained Variational Message Encoding for Cooperative Multi-agent Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理