Wireless Communication Enhanced Value Decomposition for Multi-Agent Reinforcement Learning

📄 arXiv: 2604.08728v1 📥 PDF

作者: Diyi Hu, Bhaskar Krishnamachari

分类: cs.LG

发布日期: 2026-04-09


💡 一句话要点

提出CLOVER框架,利用无线通信图增强多智能体强化学习中的值分解。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 值分解 无线通信 图神经网络 关系归纳偏置

📋 核心要点

  1. 现有MARL方法在智能体通信方面存在不足,通常假设理想信道,忽略了实际通信拓扑对值分解的影响。
  2. CLOVER框架通过引入通信图作为关系归纳偏置,指导值分解过程,从而实现更有效的信用分配和策略学习。
  3. 实验结果表明,CLOVER在多个基准测试中显著提升了MARL的收敛速度和最终性能,并验证了智能体学习到了自适应通信策略。

📝 摘要(中文)

多智能体强化学习(MARL)中的合作受益于智能体间的通信,但大多数方法假设理想化的信道,并且现有的值分解方法忽略了谁成功地与谁共享了信息。我们提出了CLOVER,一个合作MARL框架,其中心化的值混合器以在真实无线信道下实现的通信图为条件。该图将关系归纳偏置引入值分解,基于实现的通信结构约束个体效用的混合方式。混合器是一个GNN,具有由排列等变超网络生成的节点特定权重:沿着通信边缘的多跳传播重塑了信用分配,使得不同的拓扑结构诱导不同的混合。我们证明了该混合器是排列不变的、单调的(保留IGM条件),并且比QMIX风格的混合器更具表达性。为了处理真实的信道,我们制定了一个增强的MDP,将随机信道效应与智能体计算图隔离,并采用随机感受野编码器处理可变大小的消息集,从而实现端到端的可微训练。在p-CSMA无线信道下的Predator-Prey和Lumberjacks基准测试中,CLOVER始终优于VDN、QMIX、TarMAC+VDN和TarMAC+QMIX,提高了收敛速度和最终性能。行为分析证实,智能体学会了自适应的信号发送和监听策略,并且消融实验将通信图归纳偏置确定为改进的关键来源。

🔬 方法详解

问题定义:现有的多智能体强化学习方法在处理智能体间通信时,通常假设理想的通信信道,忽略了实际无线通信环境的复杂性,例如信道衰落、干扰等。此外,现有的值分解方法没有充分利用智能体间的通信信息,无法准确地进行信用分配,导致学习效率低下。因此,如何利用真实的通信环境信息,并将其融入到值分解过程中,是一个亟待解决的问题。

核心思路:CLOVER的核心思路是将实际的无线通信图作为一种关系归纳偏置,引入到值分解过程中。通过通信图,可以明确哪些智能体之间成功进行了通信,从而指导值混合器如何将个体效用进行混合。这种方法能够更准确地进行信用分配,并促进智能体学习到更有效的通信策略。

技术框架:CLOVER框架主要包含以下几个模块:1) 增强的MDP:用于处理随机信道效应,将信道状态与智能体计算图隔离。2) 随机感受野编码器:用于处理可变大小的消息集,将接收到的消息编码成固定维度的向量。3) 基于GNN的值混合器:以通信图为输入,利用GNN进行信息传播和特征提取,然后使用排列等变超网络生成节点特定权重,最终将个体效用进行混合。

关键创新:CLOVER的关键创新在于将无线通信图作为关系归纳偏置引入到值分解中。传统的MARL方法通常忽略了通信拓扑结构,而CLOVER通过GNN显式地建模了智能体之间的通信关系,从而能够更有效地进行信用分配和策略学习。此外,CLOVER还提出了一种新的值混合器,该混合器是排列不变的、单调的,并且比QMIX风格的混合器更具表达性。

关键设计:CLOVER的关键设计包括:1) 使用p-CSMA无线信道模型模拟真实的无线通信环境。2) 使用随机感受野编码器处理可变大小的消息集,确保框架能够处理不同数量的接收消息。3) 使用GNN作为值混合器的核心组件,利用GNN强大的图表示能力来建模智能体之间的通信关系。4) 使用排列等变超网络生成节点特定权重,保证值混合器的排列不变性。

📊 实验亮点

实验结果表明,在Predator-Prey和Lumberjacks基准测试中,CLOVER在p-CSMA无线信道下始终优于VDN、QMIX、TarMAC+VDN和TarMAC+QMIX,提高了收敛速度和最终性能。例如,在Predator-Prey环境中,CLOVER的平均奖励比QMIX提高了约20%。消融实验表明,通信图归纳偏置是CLOVER性能提升的关键因素。

🎯 应用场景

CLOVER框架在多智能体协作机器人、无线传感器网络、智能交通系统等领域具有广泛的应用前景。例如,在协作机器人中,可以利用CLOVER框架实现机器人之间的有效通信和协同作业,提高生产效率。在无线传感器网络中,可以利用CLOVER框架优化传感器节点的通信策略,延长网络寿命。在智能交通系统中,可以利用CLOVER框架实现车辆之间的信息共享和协同驾驶,提高交通效率和安全性。

📄 摘要(原文)

Cooperation in multi-agent reinforcement learning (MARL) benefits from inter-agent communication, yet most approaches assume idealized channels and existing value decomposition methods ignore who successfully shared information with whom. We propose CLOVER, a cooperative MARL framework whose centralized value mixer is conditioned on the communication graph realized under a realistic wireless channel. This graph introduces a relational inductive bias into value decomposition, constraining how individual utilities are mixed based on the realized communication structure. The mixer is a GNN with node-specific weights generated by a Permutation-Equivariant Hypernetwork: multi-hop propagation along communication edges reshapes credit assignment so that different topologies induce different mixing. We prove this mixer is permutation invariant, monotonic (preserving the IGM condition), and strictly more expressive than QMIX-style mixers. To handle realistic channels, we formulate an augmented MDP isolating stochastic channel effects from the agent computation graph, and employ a stochastic receptive field encoder for variable-size message sets, enabling end-to-end differentiable training. On Predator-Prey and Lumberjacks benchmarks under p-CSMA wireless channels, CLOVER consistently improves convergence speed and final performance over VDN, QMIX, TarMAC+VDN, and TarMAC+QMIX. Behavioral analysis confirms agents learn adaptive signaling and listening strategies, and ablations isolate the communication-graph inductive bias as the key source of improvement.