A Hybrid Reinforcement Learning Framework for Hard Latency Constrained Resource Scheduling

📄 arXiv: 2504.03721v1 📥 PDF

作者: Luyuan Zhang, An Liu, Kexuan Wang

分类: cs.NI, cs.AI

发布日期: 2025-03-30

备注: 13 pages, 8 figures


💡 一句话要点

提出一种混合强化学习框架,解决6G中硬延迟约束下的资源调度问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 资源调度 低延迟通信 6G 扩展现实 URLLC 混合学习

📋 核心要点

  1. 现有资源调度算法难以有效处理6G中XR应用带来的突发流量,导致网络拥塞甚至崩溃,无法满足硬延迟约束。
  2. 提出一种混合强化学习框架HRL-RSHLC,通过重用旧策略和领域知识策略,加速学习过程并提升性能。
  3. 实验证明,HRL-RSHLC算法相比于基线算法,能够以更快的收敛速度实现更高的硬延迟约束有效吞吐量。

📝 摘要(中文)

在即将到来的6G时代,扩展现实(XR)被认为是超可靠低延迟通信(URLLC)的新兴应用,它具有新的流量特性和更严格的要求。除了XR中的准周期性流量外,在一些实际的低延迟通信场景中,具有大帧大小和随机到达的突发流量已成为网络拥塞甚至崩溃的主要原因,并且仍然缺乏一种有效的算法来解决硬延迟约束下的突发流量资源调度问题。我们提出了一种新的混合强化学习框架,用于具有硬延迟约束的资源调度(HRL-RSHLC),它重用从其他类似环境中学习到的旧策略和使用专家知识构建的基于领域知识(DK)的策略,以提高性能。策略重用概率和新策略的联合优化被公式化为一个马尔可夫决策过程(MDP),该过程最大化用户的硬延迟约束有效吞吐量(HLC-ET)。我们证明了所提出的HRL-RSHLC可以收敛到具有任意初始点的KKT点。仿真结果表明,与基线算法相比,HRL-RSHLC能够以更快的收敛速度实现卓越的性能。

🔬 方法详解

问题定义:论文旨在解决6G时代XR应用中,由于突发流量带来的硬延迟约束下的资源调度问题。现有方法难以有效处理这种具有大帧大小和随机到达特性的突发流量,导致网络拥塞,无法满足URLLC对低延迟的严格要求。

核心思路:论文的核心思路是利用混合强化学习,结合已有的经验(旧策略)和专家知识(领域知识策略),来加速新策略的学习过程,并提升最终的资源调度性能。通过策略重用,避免从零开始学习,更快地适应当前环境。

技术框架:HRL-RSHLC框架将策略重用概率和新策略的联合优化建模为一个马尔可夫决策过程(MDP)。该MDP的目标是最大化用户的硬延迟约束有效吞吐量(HLC-ET)。框架包含以下主要模块:环境交互模块、策略重用模块、新策略学习模块和优化模块。环境交互模块负责与网络环境进行交互,获取状态信息和执行动作。策略重用模块负责根据当前状态选择合适的旧策略或领域知识策略。新策略学习模块负责学习新的资源调度策略。优化模块负责联合优化策略重用概率和新策略。

关键创新:该论文的关键创新在于提出了混合强化学习框架HRL-RSHLC,该框架能够有效地利用旧策略和领域知识策略,加速学习过程并提升性能。与传统的强化学习方法相比,HRL-RSHLC能够更快地适应新的环境,并获得更高的奖励。此外,论文还证明了HRL-RSHLC可以收敛到KKT点,保证了算法的收敛性。

关键设计:论文将策略重用概率和新策略的联合优化建模为一个MDP,并定义了相应的状态空间、动作空间和奖励函数。状态空间包括网络状态信息,如队列长度、信道质量等。动作空间包括资源分配方案。奖励函数为用户的硬延迟约束有效吞吐量(HLC-ET)。论文还设计了一种基于领域知识的策略,该策略利用专家知识来指导资源调度。此外,论文还证明了HRL-RSHLC可以收敛到KKT点,保证了算法的收敛性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HRL-RSHLC算法相比于基线算法,能够以更快的收敛速度实现更高的硬延迟约束有效吞吐量。具体而言,HRL-RSHLC在相同的训练时间内,能够达到比传统强化学习算法更高的HLC-ET,并且能够更好地满足硬延迟约束。这表明HRL-RSHLC算法能够有效地利用旧策略和领域知识策略,加速学习过程并提升性能。

🎯 应用场景

该研究成果可应用于6G移动通信系统中的资源调度,尤其是在需要满足超可靠低延迟通信(URLLC)的场景下,例如扩展现实(XR)、工业自动化、远程医疗等。通过优化资源分配,可以有效降低延迟,提高用户体验,并支持更多对延迟敏感的应用。

📄 摘要(原文)

In the forthcoming 6G era, extend reality (XR) has been regarded as an emerging application for ultra-reliable and low latency communications (URLLC) with new traffic characteristics and more stringent requirements. In addition to the quasi-periodical traffic in XR, burst traffic with both large frame size and random arrivals in some real world low latency communication scenarios has become the leading cause of network congestion or even collapse, and there still lacks an efficient algorithm for the resource scheduling problem under burst traffic with hard latency constraints. We propose a novel hybrid reinforcement learning framework for resource scheduling with hard latency constraints (HRL-RSHLC), which reuses polices from both old policies learned under other similar environments and domain-knowledge-based (DK) policies constructed using expert knowledge to improve the performance. The joint optimization of the policy reuse probabilities and new policy is formulated as an Markov Decision Problem (MDP), which maximizes the hard-latency constrained effective throughput (HLC-ET) of users. We prove that the proposed HRL-RSHLC can converge to KKT points with an arbitrary initial point. Simulations show that HRL-RSHLC can achieve superior performance with faster convergence speed compared to baseline algorithms.