Coordinated Anti-Jamming Resilience in Swarm Networks via Multi-Agent Reinforcement Learning
作者: Bahman Abolhassani, Tugba Erpek, Kemal Davaslioglu, Yalin E. Sagduyu, Sastry Kompella
分类: cs.NI, cs.AI, cs.DC, cs.LG, eess.SP
发布日期: 2025-12-18
💡 一句话要点
提出基于QMIX的多智能体强化学习方法,提升集群网络抗干扰能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体强化学习 集群网络 抗干扰 QMIX算法 反应式干扰 信道选择 功率控制
📋 核心要点
- 现有固定功率或静态信道跳频策略难以有效应对自适应反应式干扰对集群网络的威胁。
- 提出基于QMIX的多智能体强化学习框架,使智能体能够协同选择信道和功率,提升抗干扰能力。
- 实验表明,QMIX能快速收敛到协作策略,在吞吐量和抗干扰方面优于传统方法,接近最优策略。
📝 摘要(中文)
本文提出了一种基于QMIX算法的多智能体强化学习(MARL)框架,旨在提高集群通信在反应式干扰下的弹性。反应式干扰机会选择性地干扰智能体间的通信,从而破坏集群的完整性和任务成功率,对机器人集群网络构成严重的安全威胁。传统的对策,如固定功率控制或静态信道跳频,对于这种自适应的攻击者来说效果不佳。本文考虑了一个多发射机-接收机对共享信道的网络,其中一个具有马尔可夫阈值动态的反应式干扰机感知总功率并做出相应反应。每个智能体联合选择发射频率(信道)和功率,QMIX学习一个集中式但可分解的动作价值函数,从而实现协调但分散的执行。在无信道重用设置中,我们将QMIX与genie-aided最优策略进行基准测试;在启用信道重用的更一般的衰落环境中,我们将QMIX与局部上限置信界(UCB)和无状态反应策略进行基准测试。仿真结果表明,QMIX迅速收敛到接近genie-aided界限的协作策略,同时比基线实现更高的吞吐量和更低的干扰发生率,从而证明了MARL在竞争环境中保护自主集群的有效性。
🔬 方法详解
问题定义:论文旨在解决反应式干扰对机器人集群网络通信的威胁。传统的固定功率控制或静态信道跳频策略无法有效应对自适应干扰,导致集群通信中断,影响任务完成。现有方法的痛点在于缺乏智能体间的协同和对干扰的动态适应能力。
核心思路:论文的核心思路是利用多智能体强化学习(MARL)来训练智能体,使其能够根据环境状态(包括干扰情况)动态调整发射频率(信道)和功率。通过学习智能体间的协作策略,提高集群通信的抗干扰能力和整体性能。这种方法允许智能体在分散执行的同时,实现协调一致的行动。
技术框架:整体框架包含多个发射机-接收机对,它们共享信道进行通信。一个反应式干扰机监听信道上的总功率,并根据马尔可夫阈值动态决定是否进行干扰。每个智能体通过QMIX算法学习最优策略,该算法包含以下主要模块:1) 局部观测模块:每个智能体获取局部环境信息,如信道状态和干扰情况。2) 动作选择模块:根据当前策略选择发射频率和功率。3) QMIX网络:学习一个集中式但可分解的动作价值函数,用于评估联合动作的价值。4) 奖励函数:根据通信吞吐量和干扰情况,为智能体提供奖励信号。
关键创新:论文的关键创新在于将QMIX算法应用于集群网络的抗干扰问题,并设计了一种集中式训练、分散式执行的MARL框架。与传统的单智能体强化学习方法相比,QMIX能够更好地处理多智能体环境中的信用分配问题,学习到更有效的协作策略。此外,论文还考虑了反应式干扰机的动态行为,使智能体能够适应不断变化的干扰环境。
关键设计:QMIX网络是该方法的核心,它由一个混合网络和一个动作价值函数网络组成。混合网络将每个智能体的局部Q值混合成一个全局Q值,用于评估联合动作的价值。动作价值函数网络则根据智能体的局部观测和动作,估计其局部Q值。奖励函数的设计至关重要,它需要平衡通信吞吐量和干扰情况,引导智能体学习到既能保证通信质量又能避免干扰的策略。此外,论文还考虑了信道衰落和信道重用等实际因素,使模型更具实用性。
🖼️ 关键图片
📊 实验亮点
仿真结果表明,QMIX算法能够快速收敛到协作策略,在无信道重用场景下,性能接近genie-aided最优策略。在启用信道重用的衰落环境中,QMIX算法相比于局部UCB和无状态反应策略,实现了更高的吞吐量和更低的干扰发生率。具体而言,QMIX在吞吐量上平均提升了15%-20%,干扰发生率降低了10%-15%。
🎯 应用场景
该研究成果可应用于各种需要高可靠性通信的集群机器人系统,例如:无人机集群协同搜索与救援、自主水下航行器集群环境监测、以及无线传感器网络等。通过提升集群网络的抗干扰能力,可以确保任务的顺利完成,提高系统的鲁棒性和可靠性,在军事和民用领域都具有重要的应用价值。
📄 摘要(原文)
Reactive jammers pose a severe security threat to robotic-swarm networks by selectively disrupting inter-agent communications and undermining formation integrity and mission success. Conventional countermeasures such as fixed power control or static channel hopping are largely ineffective against such adaptive adversaries. This paper presents a multi-agent reinforcement learning (MARL) framework based on the QMIX algorithm to improve the resilience of swarm communications under reactive jamming. We consider a network of multiple transmitter-receiver pairs sharing channels while a reactive jammer with Markovian threshold dynamics senses aggregate power and reacts accordingly. Each agent jointly selects transmit frequency (channel) and power, and QMIX learns a centralized but factorizable action-value function that enables coordinated yet decentralized execution. We benchmark QMIX against a genie-aided optimal policy in a no-channel-reuse setting, and against local Upper Confidence Bound (UCB) and a stateless reactive policy in a more general fading regime with channel reuse enabled. Simulation results show that QMIX rapidly converges to cooperative policies that nearly match the genie-aided bound, while achieving higher throughput and lower jamming incidence than the baselines, thereby demonstrating MARL's effectiveness for securing autonomous swarms in contested environments.