Goal-oriented Transmission Scheduling: Structure-guided DRL with a Unified Dual On-policy and Off-policy Approach

📄 arXiv: 2501.11921v1 📥 PDF

作者: Jiazheng Chen, Wanchun Liu

分类: cs.IT, cs.AI, cs.LG, eess.SP, eess.SY

发布日期: 2025-01-21

备注: Paper submitted to IEEE


💡 一句话要点

提出结构引导的统一双重策略DRL算法,解决面向目标的无线通信调度问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 面向目标通信 深度强化学习 无线资源调度 信息年龄 结构化学习

📋 核心要点

  1. 多设备多信道系统中的高效调度因状态和动作空间的高维度而面临挑战,现有方法难以兼顾性能与效率。
  2. 论文提出结构引导的统一双重策略DRL(SUDO-DRL),结合on-policy的稳定性和off-policy的样本效率,提升训练效果。
  3. 实验结果表明,SUDO-DRL相比现有方法,系统性能提升高达45%,收敛时间减少40%,并能有效处理更大规模系统。

📝 摘要(中文)

面向目标的通信优先考虑应用驱动的目标而非数据精度,从而实现智能的下一代无线系统。在多设备、多信道系统中进行高效调度面临着高维状态和动作空间的巨大挑战。本文通过推导面向目标调度问题的最优解的关键结构属性来应对这些挑战,其中考虑了信息年龄(AoI)和信道状态。具体而言,我们建立了最优状态值函数(长期系统性能的度量)关于信道状态的单调性,并证明了其关于AoI状态的渐近凸性。此外,我们推导了最优策略关于信道状态的单调性,从而推进了最优调度的理论框架。利用这些见解,我们提出了一种结构引导的统一双重on-off策略DRL(SUDO-DRL),这是一种混合算法,它结合了on-policy训练的稳定性和off-policy方法的样本效率。通过一种新颖的结构属性评估框架,SUDO-DRL能够实现有效且可扩展的训练,从而解决大规模系统的复杂性。数值结果表明,与最先进的方法相比,SUDO-DRL将系统性能提高了高达45%,并将收敛时间减少了40%。它还可以有效地处理更大规模系统中的调度,在这些系统中,off-policy DRL失败,而on-policy基准测试表现出显着的性能损失,从而证明了其在面向目标的通信中的可扩展性和有效性。

🔬 方法详解

问题定义:论文旨在解决面向目标的无线通信系统中,多设备、多信道下的高效调度问题。现有方法在高维状态和动作空间下,难以实现性能和效率的平衡。传统的on-policy方法虽然稳定,但样本效率低;off-policy方法样本效率高,但容易不稳定,难以收敛。

核心思路:论文的核心思路是利用面向目标调度问题的结构属性,指导深度强化学习(DRL)算法的设计。通过理论分析,论文证明了最优状态值函数关于信道状态的单调性,关于AoI状态的渐近凸性,以及最优策略关于信道状态的单调性。这些结构属性可以用来约束和指导DRL算法的学习过程,提高训练效率和稳定性。

技术框架:SUDO-DRL算法的整体框架是一个混合的on-policy和off-policy DRL算法。它包含以下主要模块:1) 结构属性评估模块:用于评估当前策略是否满足理论推导的结构属性。2) On-policy训练模块:使用PPO等算法进行策略更新,保证训练的稳定性。3) Off-policy训练模块:使用DQN等算法进行价值函数学习,提高样本效率。4) 统一策略更新模块:根据结构属性评估结果,动态调整on-policy和off-policy训练的权重,实现二者的平衡。

关键创新:SUDO-DRL算法的关键创新在于:1) 提出了结构引导的DRL方法,利用问题的结构属性来指导算法设计,提高训练效率和稳定性。2) 提出了统一双重策略的训练框架,结合了on-policy和off-policy方法的优点,实现了性能和效率的平衡。3) 提出了结构属性评估框架,用于动态调整on-policy和off-policy训练的权重。

关键设计:SUDO-DRL算法的关键设计包括:1) 结构属性评估指标的设计:用于量化当前策略与理论最优策略的结构属性的差距。2) On-policy和off-policy训练的权重调整策略:根据结构属性评估结果,动态调整二者的权重,例如,当结构属性满足较好时,增加off-policy训练的权重,提高样本效率;当结构属性不满足时,增加on-policy训练的权重,保证训练的稳定性。3) 网络结构的设计:可以采用常见的深度神经网络结构,如MLP、CNN、RNN等,根据具体问题进行选择。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SUDO-DRL算法在面向目标的无线通信调度问题上取得了显著的性能提升。与最先进的方法相比,SUDO-DRL将系统性能提高了高达45%,并将收敛时间减少了40%。此外,SUDO-DRL还可以有效地处理更大规模系统中的调度,在这些系统中,off-policy DRL失败,而on-policy基准测试表现出显着的性能损失,从而证明了其可扩展性和有效性。

🎯 应用场景

该研究成果可应用于各种面向目标的无线通信场景,例如物联网(IoT)、工业自动化、智能交通等。通过优化调度策略,可以提高系统的整体性能,降低延迟,提高可靠性,从而提升用户体验和应用价值。未来,该方法可以进一步扩展到更复杂的通信场景,例如多智能体通信、联邦学习等。

📄 摘要(原文)

Goal-oriented communications prioritize application-driven objectives over data accuracy, enabling intelligent next-generation wireless systems. Efficient scheduling in multi-device, multi-channel systems poses significant challenges due to high-dimensional state and action spaces. We address these challenges by deriving key structural properties of the optimal solution to the goal-oriented scheduling problem, incorporating Age of Information (AoI) and channel states. Specifically, we establish the monotonicity of the optimal state value function (a measure of long-term system performance) w.r.t. channel states and prove its asymptotic convexity w.r.t. AoI states. Additionally, we derive the monotonicity of the optimal policy w.r.t. channel states, advancing the theoretical framework for optimal scheduling. Leveraging these insights, we propose the structure-guided unified dual on-off policy DRL (SUDO-DRL), a hybrid algorithm that combines the stability of on-policy training with the sample efficiency of off-policy methods. Through a novel structural property evaluation framework, SUDO-DRL enables effective and scalable training, addressing the complexities of large-scale systems. Numerical results show SUDO-DRL improves system performance by up to 45% and reduces convergence time by 40% compared to state-of-the-art methods. It also effectively handles scheduling in much larger systems, where off-policy DRL fails and on-policy benchmarks exhibit significant performance loss, demonstrating its scalability and efficacy in goal-oriented communications.