Performance Optimization of Energy-Harvesting Underlay Cognitive Radio Networks Using Reinforcement Learning
作者: Deemah H. Tashman, Soumaya Cherkaoui, Walaa Hamouda
分类: eess.SP, cs.LG
发布日期: 2025-05-20
💡 一句话要点
提出基于深度Q网络的认知无线电能量收集优化方案,提升次级用户数据速率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 认知无线电网络 能量收集 深度强化学习 深度Q网络 资源分配
📋 核心要点
- 认知无线电网络中,能量受限的次级用户如何有效利用主用户的干扰和环境能量,是提升网络性能的关键挑战。
- 论文提出基于深度Q网络的强化学习方法,次级用户通过学习动态调整能量收集策略和传输功率,优化数据传输速率。
- 实验结果表明,该方法优于传统基线策略,验证了所提方案在提升次级用户数据速率方面的有效性。
📝 摘要(中文)
本文采用强化学习技术来最大化认知无线电网络(CRN)的性能。假设在主用户(PU)存在的情况下,两个次级用户(SU)在underlay模式下访问授权频段。此外,假设SU发射机是能量受限的设备,需要收集能量才能将其信号传输到目标目的地。因此,我们提出两种主要的能量来源:PU传输的干扰和环境射频(RF)源。SU将根据预定的阈值选择是从PU收集能量还是仅从环境源收集能量。从PU消息中收集能量的过程通过时分切换方法完成。此外,基于深度Q网络(DQN)方法,SU发射机确定在每个时隙是收集能量还是传输消息,并选择合适的传输功率,以最大化其平均数据速率。我们的研究结果表明,该方法优于基线策略并能收敛。
🔬 方法详解
问题定义:论文旨在解决能量收集认知无线电网络中,次级用户(SU)如何在主用户(PU)存在的情况下,最大化其平均数据速率的问题。现有方法通常采用固定的能量收集策略或简单的功率控制方案,无法充分利用PU的干扰能量和环境射频能量,导致SU的传输性能受限。
核心思路:论文的核心思路是利用深度强化学习(DRL)技术,特别是深度Q网络(DQN),使SU能够根据当前的网络状态(例如PU的传输状态、信道状态等)动态地学习最优的能量收集和传输策略。通过不断地与环境交互,SU可以自适应地调整能量收集方式(从PU或环境)和传输功率,从而最大化其长期平均数据速率。
技术框架:整体框架包括以下几个主要模块:1) 环境建模:模拟PU的传输行为、信道状态以及能量收集过程。2) 状态空间定义:定义SU能够观察到的网络状态,例如PU的干扰强度、自身剩余能量等。3) 动作空间定义:定义SU可以采取的动作,包括选择能量收集源(PU或环境)和调整传输功率。4) DQN智能体:使用深度神经网络逼近Q函数,根据当前状态选择最优动作。5) 奖励函数设计:定义SU的奖励函数,通常与数据速率相关,鼓励SU最大化其数据传输量。
关键创新:论文的关键创新在于将DQN应用于能量收集认知无线电网络的资源分配问题。与传统的基于优化的方法相比,DQN能够处理复杂的非线性环境,并且不需要精确的信道状态信息。此外,论文还考虑了两种能量收集源(PU干扰和环境射频能量),并设计了相应的能量收集策略。
关键设计:论文采用深度Q网络(DQN)作为强化学习智能体。DQN的输入是SU观察到的网络状态,输出是每个动作对应的Q值。通过经验回放和目标网络等技术,DQN可以有效地学习最优策略。奖励函数通常设置为SU在每个时隙成功传输的数据量。此外,论文还设计了一个阈值,用于决定SU是从PU收集能量还是从环境收集能量。这个阈值可以根据PU的传输概率和信道状态进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的基于DQN的能量收集策略在平均数据速率方面优于基线策略。具体而言,在不同的网络参数设置下,该方法能够获得显著的性能提升,并且能够快速收敛到最优策略。例如,在特定场景下,该方法的数据速率比传统方法提高了15%以上。
🎯 应用场景
该研究成果可应用于无线传感器网络、物联网设备等能量受限的通信场景。通过智能地收集环境能量和利用主用户的干扰,可以延长设备的使用寿命,提高通信效率。未来,该技术有望在智能家居、智慧城市等领域发挥重要作用,实现更高效、可持续的无线通信。
📄 摘要(原文)
In this paper, a reinforcement learning technique is employed to maximize the performance of a cognitive radio network (CRN). In the presence of primary users (PUs), it is presumed that two secondary users (SUs) access the licensed band within underlay mode. In addition, the SU transmitter is assumed to be an energy-constrained device that requires harvesting energy in order to transmit signals to their intended destination. Therefore, we propose that there are two main sources of energy; the interference of PUs' transmissions and ambient radio frequency (RF) sources. The SU will select whether to gather energy from PUs or only from ambient sources based on a predetermined threshold. The process of energy harvesting from the PUs' messages is accomplished via the time switching approach. In addition, based on a deep Q-network (DQN) approach, the SU transmitter determines whether to collect energy or transmit messages during each time slot as well as selects the suitable transmission power in order to maximize its average data rate. Our approach outperforms a baseline strategy and converges, as shown by our findings.