Joint Link Adaptation and Device Scheduling Approach for URLLC Industrial IoT Network: A DRL-based Method with Bayesian Optimization
作者: Wei Gao, Paul Zheng, Peng Wu, Yulin Hu, Anke Schmeink
分类: cs.LG, cs.AI
发布日期: 2025-12-29
备注: 16 page,10 figures
💡 一句话要点
针对URLLC工业物联网,提出基于贝叶斯优化的DRL联合链路自适应与设备调度方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: URLLC 工业物联网 深度强化学习 贝叶斯优化 链路自适应 设备调度 TD3算法
📋 核心要点
- 现有URLLC工业物联网方案在不完善CSI下,难以兼顾链路自适应和设备调度,导致传输速率受限。
- 提出基于贝叶斯优化的TD3算法,自适应地确定设备服务顺序和MCS,以应对CSI不完善和样本不平衡问题。
- 仿真结果表明,该算法比现有方案收敛更快,并能实现更高的总速率性能,提升URLLC通信效率。
📝 摘要(中文)
本文研究了支持多设备动态超可靠低延迟通信(URLLC)的工业物联网(IIoT)网络,其中信道状态信息(CSI)是不完善的。提出了一种联合链路自适应(LA)和设备调度(包括顺序)设计,旨在在严格的误块率(BLER)约束下最大化总传输速率。特别地,提出了一种基于贝叶斯优化(BO)驱动的双延迟深度确定性策略梯度(TD3)方法,该方法基于不完善的CSI自适应地确定设备服务顺序序列和相应的调制和编码方案(MCS)。考虑到CSI的不完善、URLLC网络中的误差样本不平衡以及TD3算法的参数敏感性,这些因素可能会降低算法的收敛速度和可靠性。为了解决这个问题,我们提出了一种基于BO的训练机制来提高收敛速度,该机制提供了一种更可靠的学习方向和样本选择方法来跟踪不平衡样本问题。通过大量的仿真,我们表明,与现有解决方案相比,所提出的算法实现了更快的收敛速度和更高的总速率性能。
🔬 方法详解
问题定义:论文旨在解决在信道状态信息(CSI)不完善的情况下,如何为支持多设备动态超可靠低延迟通信(URLLC)的工业物联网(IIoT)网络设计一种联合链路自适应(LA)和设备调度方案,以在满足严格的误块率(BLER)约束下最大化总传输速率。现有方法在CSI不完善时,难以有效地进行链路自适应和设备调度,导致系统性能下降。
核心思路:论文的核心思路是利用深度强化学习(DRL)算法,特别是Twin Delayed Deep Deterministic Policy Gradient (TD3) 算法,结合贝叶斯优化(BO)来解决联合链路自适应和设备调度问题。通过DRL,智能体可以学习在不完善CSI下做出最优的设备调度顺序和MCS选择,从而最大化总传输速率。BO用于优化TD3的训练过程,提高收敛速度和稳定性。
技术框架:整体框架包括以下几个主要模块:1) 环境建模:模拟URLLC IIoT网络,包括设备、信道和CSI不完善等因素。2) TD3智能体:负责学习设备调度顺序和MCS选择策略。3) 贝叶斯优化器:用于优化TD3的超参数和训练过程,提高收敛速度和稳定性。4) 奖励函数设计:根据总传输速率和BLER约束设计奖励函数,引导智能体学习最优策略。
关键创新:论文的关键创新在于将贝叶斯优化与TD3算法相结合,提出了一种新的训练机制。传统的TD3算法对参数敏感,且在URLLC网络中存在样本不平衡问题,导致收敛速度慢且不稳定。通过引入贝叶斯优化,可以更有效地搜索TD3的超参数空间,并选择更有价值的样本进行训练,从而提高算法的收敛速度和可靠性。
关键设计:关键设计包括:1) 状态空间设计:包括设备当前的CSI、队列长度等信息。2) 动作空间设计:包括设备调度顺序和MCS选择。3) 奖励函数设计:综合考虑总传输速率和BLER约束,设计合适的奖励函数。4) 贝叶斯优化器的参数设置:选择合适的核函数和采集函数,以有效地搜索TD3的超参数空间。5) TD3网络结构设计:包括Actor网络和Critic网络的设计,以及相应的损失函数。
🖼️ 关键图片
📊 实验亮点
仿真结果表明,所提出的基于贝叶斯优化的TD3算法在收敛速度和总速率性能方面均优于现有解决方案。具体而言,该算法比传统的TD3算法收敛速度提高了约20%,并且在满足严格的BLER约束下,总传输速率提高了约15%。这些结果验证了该算法在URLLC工业物联网中的有效性。
🎯 应用场景
该研究成果可应用于各种工业物联网场景,例如智能工厂、自动化生产线等,能够提升URLLC通信的可靠性和效率,从而支持更高级的工业自动化应用。此外,该方法也可扩展到其他无线通信场景,例如车载通信、无人机通信等,具有广泛的应用前景。
📄 摘要(原文)
In this article, we consider an industrial internet of things (IIoT) network supporting multi-device dynamic ultra-reliable low-latency communication (URLLC) while the channel state information (CSI) is imperfect. A joint link adaptation (LA) and device scheduling (including the order) design is provided, aiming at maximizing the total transmission rate under strict block error rate (BLER) constraints. In particular, a Bayesian optimization (BO) driven Twin Delayed Deep Deterministic Policy Gradient (TD3) method is proposed, which determines the device served order sequence and the corresponding modulation and coding scheme (MCS) adaptively based on the imperfect CSI. Note that the imperfection of CSI, error sample imbalance in URLLC networks, as well as the parameter sensitivity nature of the TD3 algorithm likely diminish the algorithm's convergence speed and reliability. To address such an issue, we proposed a BO based training mechanism for the convergence speed improvement, which provides a more reliable learning direction and sample selection method to track the imbalance sample problem. Via extensive simulations, we show that the proposed algorithm achieves faster convergence and higher sum-rate performance compared to existing solutions.