Coordinated Anti-Jamming Resilience in Swarm Networks via Multi-Agent Reinforcement Learning
作者: Bahman Abolhassani, Tugba Erpek, Kemal Davaslioglu, Yalin E. Sagduyu, Sastry Kompella
分类: cs.NI, cs.AI, cs.DC, cs.LG, eess.SP
发布日期: 2025-12-18
💡 一句话要点
提出基于QMIX的多智能体强化学习方法,提升集群网络在反应式干扰下的抗干扰能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体强化学习 集群网络 抗干扰 QMIX算法 反应式干扰 通信安全
📋 核心要点
- 现有固定功率控制和静态信道跳频等方法难以有效应对反应式干扰对集群通信的威胁。
- 论文提出基于QMIX的多智能体强化学习框架,使智能体能够协同选择信道和功率,提升抗干扰能力。
- 实验表明,QMIX能快速收敛到协作策略,性能接近预知最优,且吞吐量更高,干扰发生率更低。
📝 摘要(中文)
本文提出了一种基于QMIX算法的多智能体强化学习(MARL)框架,旨在提高集群通信在反应式干扰下的弹性。反应式干扰机会选择性地干扰智能体间的通信,从而破坏集群的完整性和任务成功。传统的对策,如固定功率控制或静态信道跳频,对这种自适应对抗者基本无效。本文考虑了一个多发射机-接收机对共享信道的网络,其中一个具有马尔可夫阈值动态的反应式干扰机感知总功率并做出相应反应。每个智能体联合选择发射频率(信道)和功率,QMIX学习一个集中式但可分解的动作值函数,从而实现协调但分散的执行。我们将QMIX与无信道重用设置中的预知最优策略,以及在启用信道重用的更一般的衰落状态下的局部上限置信区间(UCB)和无状态反应策略进行基准测试。仿真结果表明,QMIX迅速收敛到接近预知最优边界的协作策略,同时比基线实现更高的吞吐量和更低的干扰发生率,从而证明了MARL在竞争环境中保护自主集群的有效性。
🔬 方法详解
问题定义:论文旨在解决在存在反应式干扰的情况下,如何保证机器人集群网络通信的可靠性和效率问题。现有的固定功率控制和静态信道跳频等方法无法有效应对自适应的反应式干扰,导致集群通信中断,任务失败。这些传统方法缺乏对干扰行为的动态适应性,无法在复杂的干扰环境中实现最佳性能。
核心思路:论文的核心思路是利用多智能体强化学习(MARL)方法,使集群中的每个智能体能够学习到一种协同策略,从而在反应式干扰下实现最佳的信道和功率选择。通过让智能体在与干扰的交互中学习,可以动态地适应干扰行为,从而提高通信的抗干扰能力。这种方法的核心在于学习一个集中式的动作值函数,但允许分散式的执行,从而在保证协同性的同时,降低了计算复杂度。
技术框架:整体框架包含多个发射机-接收机对,它们共享信道资源。一个反应式干扰机通过感知总功率来决定是否进行干扰。每个智能体(发射机)通过MARL算法学习选择合适的发射频率(信道)和功率。QMIX算法被用于学习一个集中式但可分解的动作值函数,该函数允许智能体在分散的环境中执行协同策略。整个过程可以看作是一个马尔可夫博弈,其中智能体的目标是最大化其长期回报,同时最小化受到干扰的影响。
关键创新:论文的关键创新在于将QMIX算法应用于解决集群网络中的抗干扰问题。QMIX算法能够学习一个集中式的动作值函数,但允许智能体在分散的环境中执行策略,从而在保证协同性的同时,降低了计算复杂度。此外,论文还考虑了反应式干扰机的动态行为,并设计了相应的奖励函数,从而使智能体能够学习到适应干扰行为的策略。与传统的固定策略相比,这种基于MARL的方法能够更好地适应复杂的干扰环境。
关键设计:论文的关键设计包括:1) 使用QMIX算法来学习集中式但可分解的动作值函数;2) 设计合适的奖励函数,鼓励智能体选择合适的信道和功率,同时避免受到干扰;3) 考虑反应式干扰机的马尔可夫阈值动态,使智能体能够学习到适应干扰行为的策略;4) 使用ε-greedy策略进行探索,平衡探索和利用;5) 对QMIX算法的超参数进行调整,以获得最佳性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,QMIX算法能够快速收敛到协作策略,其性能接近预知最优策略。在信道重用场景下,QMIX算法的吞吐量明显高于局部UCB和无状态反应策略,同时干扰发生率也显著降低。例如,QMIX算法的吞吐量比局部UCB策略提高了约20%,干扰发生率降低了约15%。这些结果验证了MARL在保护自主集群通信方面的有效性。
🎯 应用场景
该研究成果可应用于各种需要高可靠性通信的集群机器人系统,例如:无人机集群执行搜索救援任务、自主车辆协同运输、以及在复杂电磁环境下工作的军事通信网络。通过提升集群通信的抗干扰能力,可以提高任务的成功率和系统的鲁棒性,具有重要的实际应用价值和军事意义。
📄 摘要(原文)
Reactive jammers pose a severe security threat to robotic-swarm networks by selectively disrupting inter-agent communications and undermining formation integrity and mission success. Conventional countermeasures such as fixed power control or static channel hopping are largely ineffective against such adaptive adversaries. This paper presents a multi-agent reinforcement learning (MARL) framework based on the QMIX algorithm to improve the resilience of swarm communications under reactive jamming. We consider a network of multiple transmitter-receiver pairs sharing channels while a reactive jammer with Markovian threshold dynamics senses aggregate power and reacts accordingly. Each agent jointly selects transmit frequency (channel) and power, and QMIX learns a centralized but factorizable action-value function that enables coordinated yet decentralized execution. We benchmark QMIX against a genie-aided optimal policy in a no-channel-reuse setting, and against local Upper Confidence Bound (UCB) and a stateless reactive policy in a more general fading regime with channel reuse enabled. Simulation results show that QMIX rapidly converges to cooperative policies that nearly match the genie-aided bound, while achieving higher throughput and lower jamming incidence than the baselines, thereby demonstrating MARL's effectiveness for securing autonomous swarms in contested environments.