Deep Reinforcement Learning-based Cell DTX/DRX Configuration for Network Energy Saving

📄 arXiv: 2507.21385v1 📥 PDF

作者: Wei Mao, Lili Wei, Omid Semiari, Shu-ping Yeh, Hosein Nikopour

分类: cs.NI, cs.AI

发布日期: 2025-07-28

备注: 7 pages, 7 figures


💡 一句话要点

提出基于深度强化学习的Cell DTX/DRX配置方法,实现5G网络节能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 5G网络 Cell DTX/DRX 网络节能 上下文老虎机

📋 核心要点

  1. 5G网络中Cell DTX/DRX技术旨在通过在低流量时段关闭无线组件来节能,但会增加数据包延迟,需要在节能和QoS之间权衡。
  2. 论文提出基于深度强化学习的Cell DTX/DRX配置方法,利用DQN在上下文老虎机模型上学习,优化奖励函数设计,以平衡节能和延迟。
  3. 实验结果表明,该方法在不同流量负载下,与不使用Cell DTX/DRX相比,可实现高达45%的节能,同时QoS降级不超过1%。

📝 摘要(中文)

本文研究了如何配置5G中的小区非连续发送/接收(Cell DTX/DRX)以优化能量节省和数据包延迟之间的平衡。针对不同网络和流量条件下最优配置的差异性,采用深度强化学习(DRL)框架训练AI智能体来解决该问题。通过精心设计:1)学习算法,在上下文老虎机(CB)模型上实现深度Q网络(DQN);2)奖励函数,利用理论最优但不连续的奖励函数的平滑近似,训练出一个AI智能体,使其在任何网络和流量条件下都能选择最佳的Cell DTX/DRX配置。仿真结果表明,与不使用Cell DTX/DRX的情况相比,该智能体可以实现高达约45%的节能,同时始终保持不超过约1%的QoS降级,节能效果取决于流量负载情况。

🔬 方法详解

问题定义:论文旨在解决5G网络中Cell DTX/DRX配置问题,即如何在保证服务质量(QoS)的前提下,最大化网络节能。现有方法难以适应不同网络和流量条件下的动态变化,无法实现节能和延迟之间的最佳平衡。

核心思路:论文的核心思路是利用深度强化学习(DRL)训练一个智能体,使其能够根据当前的网络和流量状况,动态地选择最优的Cell DTX/DRX配置。通过学习,智能体能够找到在节能和延迟之间取得最佳平衡的策略。

技术框架:整体框架包括以下几个主要模块:1)环境模拟器:模拟5G网络环境和流量负载;2)智能体:基于DQN的智能体,负责学习最优策略;3)奖励函数:用于评估智能体行为的优劣,指导智能体学习;4)上下文老虎机(CB)模型:用于提供上下文信息,帮助智能体做出决策。智能体与环境交互,根据当前状态选择动作(Cell DTX/DRX配置),环境返回奖励和下一个状态,智能体根据奖励更新策略。

关键创新:论文的关键创新在于:1)将Cell DTX/DRX配置问题建模为上下文老虎机问题,利用DQN进行求解;2)设计了一个平滑近似的奖励函数,克服了传统奖励函数不连续的问题,提高了学习效率;3) 提出了一种结合DQN和CB模型的学习算法,能够更好地适应动态变化的网络环境。

关键设计:论文的关键设计包括:1)状态空间的设计,包括网络负载、用户数量等信息;2)动作空间的设计,即不同的Cell DTX/DRX配置选项;3)奖励函数的设计,综合考虑了节能和延迟两个因素,并进行了平滑处理;4)DQN的网络结构,包括输入层、隐藏层和输出层,以及激活函数和优化器等参数。

📊 实验亮点

实验结果表明,与不使用Cell DTX/DRX的情况相比,该智能体可以实现高达约45%的节能,节能效果取决于流量负载情况。同时,QoS降级始终保持在不超过约1%。这表明该方法能够在显著降低网络能耗的同时,保证用户体验。

🎯 应用场景

该研究成果可应用于5G及未来移动通信系统的网络节能优化,通过智能配置Cell DTX/DRX参数,在保证用户体验的前提下,降低运营商的运营成本,并减少网络设备的能源消耗,具有重要的经济和社会价值。未来可扩展到其他网络参数的优化配置,实现更智能化的网络管理。

📄 摘要(原文)

3GPP Release 18 cell discontinuous transmission and reception (cell DTX/DRX) is an important new network energy saving feature for 5G. As a time-domain technique, it periodically aggregates the user data transmissions in a given duration of time when the traffic load is not heavy, so that the remaining time can be kept silent and advanced sleep modes (ASM) can be enabled to shut down more radio components and save more energy for the cell. However, inevitably the packet delay is increased, as during the silent period no transmission is allowed. In this paper we study how to configure cell DTX/DRX to optimally balance energy saving and packet delay, so that for delay-sensitive traffic maximum energy saving can be achieved while the degradation of quality of service (QoS) is minimized. As the optimal configuration can be different for different network and traffic conditions, the problem is complex and we resort to deep reinforcement learning (DRL) framework to train an AI agent to solve it. Through careful design of 1) the learning algorithm, which implements a deep Q-network (DQN) on a contextual bandit (CB) model, and 2) the reward function, which utilizes a smooth approximation of a theoretically optimal but discontinuous reward function, we are able to train an AI agent that always tries to select the best possible Cell DTX/DRX configuration under any network and traffic conditions. Simulation results show that compared to the case when cell DTX/DRX is not used, our agent can achieve up to ~45% energy saving depending on the traffic load scenario, while always maintaining no more than ~1% QoS degradation.