Achieving Hiding and Smart Anti-Jamming Communication: A Parallel DRL Approach against Moving Reactive Jammer

📄 arXiv: 2502.02385v1 📥 PDF

作者: Yangyang Li, Yuhua Xu, Wen Li, Guoxin Li, Zhibing Feng, Songyi Liu, Jiatao Du, Xinran Li

分类: cs.IT, cs.LG, eess.SY

发布日期: 2025-02-04


💡 一句话要点

提出并行深度强化学习方法以解决移动反应干扰问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 抗干扰通信 移动反应干扰 扩频技术 网络架构 动态环境 信息安全

📋 核心要点

  1. 现有方法在移动反应干扰场景中难以同时优化隐蔽性和抗干扰能力,面临复杂的联合动作空间和动态干扰器的挑战。
  2. 提出了一种并行化的深度强化学习策略,通过分解动作空间和改进选择机制来提高抗干扰性能。
  3. 实验结果表明,该方法的归一化吞吐量提高近90%,显示出显著的性能提升。

📝 摘要(中文)

本文针对移动反应干扰场景中的抗干扰挑战进行研究。移动反应干扰器在检测到任何传输活动时会启动高功率跟踪干扰,而在无法检测到信号时则转为无差别干扰。这要求在避免被干扰器检测的同时,亦需躲避无差别干扰。扩频技术虽然能有效降低传输功率以避免检测,但对抗无差别干扰的效果有限。相反,频率变化可以帮助规避无差别干扰,但在没有扩频技术的情况下,传输会受到跟踪干扰的威胁。现有方法在同时优化这两项需求的复杂性上存在困难。为此,本文提出了一种并行化的深度强化学习策略,采用并行网络架构以分解动作空间,并用并行探索-利用选择机制替代传统的ε-贪婪机制,从而加速收敛。模拟结果显示,归一化吞吐量提高近90%。

🔬 方法详解

问题定义:本文旨在解决在移动反应干扰场景中,如何同时保持隐蔽性和抗无差别干扰的能力。现有方法在这两者的优化上存在困难,尤其是在复杂的联合动作空间和动态干扰器的情况下。

核心思路:论文提出的核心思路是采用并行化的深度强化学习策略,通过分解动作空间来简化决策过程,并引入并行探索-利用选择机制以加快学习速度。这样的设计旨在提高系统在动态环境中的适应能力和抗干扰性能。

技术框架:整体架构包括一个并行化的网络结构,能够有效分解动作空间,并通过并行机制进行探索和利用。该框架的主要模块包括状态感知模块、动作选择模块和反馈学习模块,确保系统能够实时响应干扰情况。

关键创新:最重要的技术创新点在于引入了并行化的探索-利用选择机制,替代了传统的ε-贪婪机制,从而显著提高了学习的收敛速度和系统的抗干扰能力。这一创新使得系统能够更快速地适应动态变化的干扰环境。

关键设计:在参数设置上,采用了适应性的学习率和奖励机制,以优化学习过程。网络结构上,设计了多层卷积神经网络以提取特征,并结合了强化学习的策略梯度方法来优化决策过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,采用并行深度强化学习策略后,系统的归一化吞吐量提高近90%。这一显著提升相较于传统方法,展示了在动态干扰环境中更强的适应能力和抗干扰性能。

🎯 应用场景

该研究具有广泛的应用潜力,尤其在军事通信、无人机通信和物联网等领域。通过提升抗干扰能力,能够有效保障信息传输的安全性和可靠性,具有重要的实际价值和未来影响。

📄 摘要(原文)

This paper addresses the challenge of anti-jamming in moving reactive jamming scenarios. The moving reactive jammer initiates high-power tracking jamming upon detecting any transmission activity, and when unable to detect a signal, resorts to indiscriminate jamming. This presents dual imperatives: maintaining hiding to avoid the jammer's detection and simultaneously evading indiscriminate jamming. Spread spectrum techniques effectively reduce transmitting power to elude detection but fall short in countering indiscriminate jamming. Conversely, changing communication frequencies can help evade indiscriminate jamming but makes the transmission vulnerable to tracking jamming without spread spectrum techniques to remain hidden. Current methodologies struggle with the complexity of simultaneously optimizing these two requirements due to the expansive joint action spaces and the dynamics of moving reactive jammers. To address these challenges, we propose a parallelized deep reinforcement learning (DRL) strategy. The approach includes a parallelized network architecture designed to decompose the action space. A parallel exploration-exploitation selection mechanism replaces the $\varepsilon $-greedy mechanism, accelerating convergence. Simulations demonstrate a nearly 90\% increase in normalized throughput.