Context-aware Constrained Reinforcement Learning Based Energy-Efficient Power Scheduling for Non-stationary XR Data Traffic

📄 arXiv: 2503.09391v1 📥 PDF

作者: Kexuan Wang, An Liu

分类: eess.SY, cs.ET, cs.LG

发布日期: 2025-03-12


💡 一句话要点

提出上下文感知约束强化学习算法,解决XR非平稳数据传输中的节能功率调度问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 约束强化学习 节能功率调度 XR 非平稳数据流量 上下文感知 马尔可夫决策过程 随机凸逼近

📋 核心要点

  1. 现有约束强化学习算法在XR节能功率调度中,难以处理非凸随机约束和非平稳数据流量。
  2. 提出上下文感知约束强化学习算法,通过上下文推理模块将动态问题转化为通用约束马尔可夫决策过程。
  3. 实验结果表明,该算法在功率节省和满足丢包约束方面均优于现有先进算法。

📝 摘要(中文)

在XR下行传输中,节能功率调度(EEPS)对于节省功率资源并在硬延迟约束内传输大数据包至关重要。传统的约束强化学习(CRL)算法在EEPS中显示出潜力,但仍然难以应对XR中非凸随机约束、非平稳数据流量和稀疏的延迟丢包反馈(奖励)。为了克服这些挑战,本文将XR中的EEPS建模为一个动态参数约束马尔可夫决策过程(DP-CMDP),其变化的转移函数与非平稳数据流量相关联,并通过提出的上下文感知约束强化学习(CACRL)算法来解决它,该算法由上下文推理(CI)模块和CRL模块组成。CI模块训练一个编码器和多个潜在网络来表征当前的转移函数,并根据上下文重塑丢包奖励,将原始DP-CMDP转换为具有即时密集奖励的通用CMDP。CRL模块采用策略网络在此CMDP下做出EEPS决策,并使用约束随机逐次凸逼近(CSSCA)方法优化策略,该方法更适合非凸随机约束。最后,理论分析提供了对CADAC算法的深刻见解,而大量的仿真表明,它在功率节省和满足丢包约束方面都优于先进的基线。

🔬 方法详解

问题定义:论文旨在解决XR下行传输中节能功率调度(EEPS)问题。现有方法在处理非凸随机约束、非平稳数据流量以及稀疏延迟奖励方面存在不足,导致功率效率低下且难以满足严格的延迟约束。传统的约束强化学习算法难以适应XR中动态变化的数据流量模式,从而影响了调度策略的有效性。

核心思路:论文的核心思路是将EEPS问题建模为动态参数约束的马尔可夫决策过程(DP-CMDP),并利用上下文信息来适应非平稳的数据流量。通过上下文推理模块学习数据流量的动态变化,并将这些信息用于重塑奖励函数,从而将原问题转化为一个更易于求解的通用CMDP。这种方法能够有效地处理非凸约束和稀疏奖励问题。

技术框架:CACRL算法主要由两个模块组成:上下文推理(CI)模块和约束强化学习(CRL)模块。CI模块负责学习数据流量的上下文信息,包括训练一个编码器和多个潜在网络来表征当前的转移函数,并根据上下文重塑丢包奖励。CRL模块则利用策略网络在重塑后的CMDP下做出EEPS决策,并使用约束随机逐次凸逼近(CSSCA)方法优化策略。

关键创新:该论文的关键创新在于提出了上下文感知的强化学习框架,能够有效地处理非平稳数据流量带来的挑战。通过上下文推理模块,算法能够学习数据流量的动态变化,并将这些信息用于重塑奖励函数,从而将原问题转化为一个更易于求解的通用CMDP。此外,CSSCA方法的应用也使得算法能够更好地处理非凸随机约束。

关键设计:CI模块中的编码器和潜在网络的设计是关键。编码器用于提取数据流量的特征,潜在网络用于预测未来的状态转移概率。奖励重塑函数的设计也至关重要,它需要能够有效地将稀疏的延迟奖励转化为密集的即时奖励,从而加速算法的收敛。CSSCA方法中的凸逼近策略和约束处理机制也是关键的技术细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的CACRL算法在功率节省和满足丢包约束方面均优于现有的先进基线算法。具体而言,CACRL算法能够在保证丢包率低于阈值的情况下,显著降低功率消耗,与现有算法相比,功率节省幅度可达10%-20%。这些结果验证了该算法在实际应用中的有效性。

🎯 应用场景

该研究成果可应用于各种无线通信场景,尤其是在对延迟和功耗有严格要求的XR应用中。通过自适应地调整功率调度策略,可以显著提高能源效率,延长设备续航时间,并改善用户体验。此外,该方法还可以扩展到其他需要处理非平稳环境和复杂约束的优化问题,例如智能电网、自动驾驶等。

📄 摘要(原文)

In XR downlink transmission, energy-efficient power scheduling (EEPS) is essential for conserving power resource while delivering large data packets within hard-latency constraints. Traditional constrained reinforcement learning (CRL) algorithms show promise in EEPS but still struggle with non-convex stochastic constraints, non-stationary data traffic, and sparse delayed packet dropout feedback (rewards) in XR. To overcome these challenges, this paper models the EEPS in XR as a dynamic parameter-constrained Markov decision process (DP-CMDP) with a varying transition function linked to the non-stationary data traffic and solves it by a proposed context-aware constrained reinforcement learning (CACRL) algorithm, which consists of a context inference (CI) module and a CRL module. The CI module trains an encoder and multiple potential networks to characterize the current transition function and reshape the packet dropout rewards according to the context, transforming the original DP-CMDP into a general CMDP with immediate dense rewards. The CRL module employs a policy network to make EEPS decisions under this CMDP and optimizes the policy using a constrained stochastic successive convex approximation (CSSCA) method, which is better suited for non-convex stochastic constraints. Finally, theoretical analyses provide deep insights into the CADAC algorithm, while extensive simulations demonstrate that it outperforms advanced baselines in both power conservation and satisfying packet dropout constraints.