Towards Ultra-Reliable 6G in-X Subnetworks: Dynamic Link Adaptation by Deep Reinforcement Learning

📄 arXiv: 2507.12031v1 📥 PDF

作者: Fateme Salehi, Aamir Mahmood, Sarder Fakhrul Abedin, Kyi Thar, Mikael Gidlund

分类: eess.SY

发布日期: 2025-07-16


💡 一句话要点

提出基于SAC的DRL动态链路自适应方法,提升6G工业网络超高可靠性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 6G网络 超高可靠低延迟通信 URLLC 深度强化学习 链路自适应 软Actor-Critic 能量效率

📋 核心要点

  1. 现有URLLC研究忽略了连续丢包问题,这可能导致工业控制系统不稳定和安全风险。
  2. 提出基于SAC的DRL算法,自适应调整发射功率和块长度,显式减少连续中断,提升可靠性。
  3. 仿真结果表明,该方法显著优于基线算法,在保证可靠性的前提下,降低了传输成本。

📝 摘要(中文)

本文针对6G网络中工业控制和自动化等任务关键型应用对超高可靠低延迟通信(URLLC)的需求,提出了一种链路自适应框架。该框架利用基于软Actor-Critic (SAC)的深度强化学习(DRL)算法,在动态信道和干扰条件下联合优化能量效率(EE)和可靠性。与以往关注平均可靠性的工作不同,本文方法明确针对突发/连续中断,通过自适应控制发射功率和块长度来降低中断概率,仅基于观察到的信干噪比(SINR)。该联合优化问题在有限块长度和服务质量约束下进行,平衡了可靠性和能量效率。仿真结果表明,所提出的方法显著优于基线算法,在评估场景中,在仅消耗全/最大资源分配策略所需传输成本的18%的情况下,减少了中断突发。该框架还支持通过调整奖励权重在能量效率和可靠性之间进行灵活的权衡,使其能够适应不同的工业需求。

🔬 方法详解

问题定义:现有URLLC研究主要关注平均可靠性,忽略了连续丢包(中断突发)对工业控制系统稳定性的影响。在工厂环境中,连续丢包可能导致控制回路失效,进而危及安全。因此,需要一种能够显式减少连续中断的链路自适应方法。

核心思路:论文的核心思路是利用深度强化学习(DRL)来动态调整发射功率和块长度,以应对动态变化的信道和干扰条件。通过优化策略,在满足服务质量(QoS)约束的前提下,最小化中断突发,同时兼顾能量效率(EE)。

技术框架:该框架基于软Actor-Critic (SAC)算法。智能体(Agent)根据当前信干噪比(SINR)状态,选择发射功率和块长度作为动作。环境返回奖励,奖励函数综合考虑了可靠性和能量效率。SAC算法通过最大化期望累积奖励来学习最优策略。整体流程包括状态观测、动作选择、环境交互和策略更新四个主要步骤。

关键创新:该方法最重要的创新点在于显式地针对连续中断进行优化,而不是仅仅关注平均可靠性。通过调整奖励函数中的权重,可以灵活地权衡可靠性和能量效率,以适应不同的工业需求。此外,该方法仅依赖于SINR信息,降低了系统复杂性。

关键设计:奖励函数的设计是关键。奖励函数包含两部分:一部分是关于可靠性的,惩罚中断事件,特别是连续中断;另一部分是关于能量效率的,惩罚过高的发射功率。通过调整两部分的权重,可以控制可靠性和能量效率之间的权衡。SAC算法使用两个Q函数和一个策略网络,采用off-policy的方式进行学习,提高了样本利用率和学习效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真结果表明,所提出的基于SAC的DRL链路自适应方法显著优于基线算法。在相同的可靠性要求下,该方法仅消耗全/最大资源分配策略所需传输成本的18%。此外,通过调整奖励权重,可以在能量效率和可靠性之间进行灵活的权衡,以适应不同的工业需求。例如,在对可靠性要求更高的场景中,可以牺牲一定的能量效率来保证通信的可靠性。

🎯 应用场景

该研究成果可应用于各种需要超高可靠低延迟通信的工业场景,例如智能工厂中的无线控制、机器人协作、远程医疗等。通过动态调整链路参数,可以保证关键任务的可靠执行,提高生产效率和安全性。此外,该方法还可以扩展到其他无线通信系统,例如车联网和无人机通信。

📄 摘要(原文)

6G networks are composed of subnetworks expected to meet ultra-reliable low-latency communication (URLLC) requirements for mission-critical applications such as industrial control and automation. An often-ignored aspect in URLLC is consecutive packet outages, which can destabilize control loops and compromise safety in in-factory environments. Hence, the current work proposes a link adaptation framework to support extreme reliability requirements using the soft actor-critic (SAC)-based deep reinforcement learning (DRL) algorithm that jointly optimizes energy efficiency (EE) and reliability under dynamic channel and interference conditions. Unlike prior work focusing on average reliability, our method explicitly targets reducing burst/consecutive outages through adaptive control of transmit power and blocklength based solely on the observed signal-to-interference-plus-noise ratio (SINR). The joint optimization problem is formulated under finite blocklength and quality of service constraints, balancing reliability and EE. Simulation results show that the proposed method significantly outperforms the baseline algorithms, reducing outage bursts while consuming only 18\% of the transmission cost required by a full/maximum resource allocation policy in the evaluated scenario. The framework also supports flexible trade-off tuning between EE and reliability by adjusting reward weights, making it adaptable to diverse industrial requirements.