Power Allocation for Delay Optimization in Device-to-Device Networks: A Graph Reinforcement Learning Approach

📄 arXiv: 2505.12902v1 📥 PDF

作者: Hao Fang, Kai Huang, Hao Ye, Chongtao Guo, Le Liang, Xiao Li, Shi Jin

分类: eess.SY, cs.LG

发布日期: 2025-05-19


💡 一句话要点

提出基于图强化学习的D2D网络功率分配方法,优化时延并保证用户公平性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: D2D通信 功率分配 强化学习 图神经网络 时延优化 用户公平性 PPO算法

📋 核心要点

  1. 现有无线通信追求速率最大化,但忽略了用户公平性,导致部分用户体验差。
  2. 提出基于图神经网络的强化学习方法,将网络拓扑信息融入功率分配策略,优化时延。
  3. 实验表明,该方法在降低平均时延、保证用户公平性方面优于传统方法,并具备良好的可扩展性。

📝 摘要(中文)

本文针对无线通信中速率最大化常导致用户公平性问题,提出了一种基于图神经网络(GNNs)的强化学习(RL)功率分配方法,用于设备到设备(D2D)通信中的时延优化。该方法将信道状态信息、数据包时延、积压数据包数量和已传输数据包数量等因素纳入状态信息。采用集中式RL方法,中央控制器收集和处理状态信息,并作为使用近端策略优化(PPO)算法训练的智能体。为了更好地利用通信网络中的拓扑信息并增强泛化能力,将GNN层嵌入到PPO算法的actor和critic网络中。这种集成允许GNN的有效参数更新,并使状态信息能够被参数化为低维嵌入,供智能体优化功率分配策略。仿真结果表明,该方法能有效降低平均时延,同时保证用户公平性,优于基线方法,并具有可扩展性和泛化能力。

🔬 方法详解

问题定义:论文旨在解决D2D通信网络中功率分配问题,目标是最小化平均数据包时延,同时保证用户之间的公平性。现有方法,如传统的功率分配算法,通常以最大化网络吞吐量为目标,忽略了时延和用户公平性。此外,这些方法通常需要复杂的优化计算,难以适应动态变化的无线环境。

核心思路:论文的核心思路是将功率分配问题建模为一个马尔可夫决策过程(MDP),并利用强化学习(RL)算法来寻找最优的功率分配策略。通过将网络拓扑信息融入状态表示,利用图神经网络(GNN)提取网络特征,从而提高策略的泛化能力和适应性。

技术框架:整体框架采用集中式强化学习,包含以下主要模块:1) 环境建模:模拟D2D通信网络,包括信道状态、数据包队列等;2) 状态表示:将信道状态信息、数据包时延、积压数据包数量和已传输数据包数量等信息作为状态;3) 智能体:使用PPO算法训练的智能体,负责根据状态选择功率分配动作;4) 图神经网络:嵌入到Actor和Critic网络中,用于提取网络拓扑特征;5) 奖励函数:设计奖励函数,鼓励降低时延和保证用户公平性。

关键创新:最重要的技术创新点在于将图神经网络(GNN)与强化学习(RL)相结合,用于D2D网络的功率分配。传统的RL方法通常难以处理具有复杂拓扑结构的网络,而GNN能够有效地提取网络拓扑信息,从而提高RL算法的性能和泛化能力。与现有方法的本质区别在于,该方法能够自适应地学习功率分配策略,而无需人工设计复杂的优化算法。

关键设计:GNN采用多层图卷积网络,用于提取节点(D2D设备)及其邻居的特征。PPO算法的Actor网络输出每个D2D设备的功率分配值,Critic网络评估当前状态的价值。奖励函数设计为时延的负值加上一个公平性惩罚项,用于平衡时延和用户公平性。具体参数设置(如学习率、折扣因子、GNN层数等)通过实验进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真结果表明,所提出的方法在平均时延方面优于传统的功率分配方法,例如最大化吞吐量算法和等功率分配算法。具体而言,在不同网络负载下,该方法能够将平均时延降低10%-20%,同时保证用户之间的公平性。此外,实验还验证了该方法具有良好的可扩展性和泛化能力,能够适应不同网络拓扑和信道条件。

🎯 应用场景

该研究成果可应用于各种D2D通信场景,例如智能交通、物联网和无线传感器网络。通过优化功率分配,可以降低数据传输时延,提高用户体验,并提升网络整体性能。未来,该方法可以扩展到更复杂的无线网络环境,例如异构网络和大规模MIMO系统。

📄 摘要(原文)

The pursuit of rate maximization in wireless communication frequently encounters substantial challenges associated with user fairness. This paper addresses these challenges by exploring a novel power allocation approach for delay optimization, utilizing graph neural networks (GNNs)-based reinforcement learning (RL) in device-to-device (D2D) communication. The proposed approach incorporates not only channel state information but also factors such as packet delay, the number of backlogged packets, and the number of transmitted packets into the components of the state information. We adopt a centralized RL method, where a central controller collects and processes the state information. The central controller functions as an agent trained using the proximal policy optimization (PPO) algorithm. To better utilize topology information in the communication network and enhance the generalization of the proposed method, we embed GNN layers into both the actor and critic networks of the PPO algorithm. This integration allows for efficient parameter updates of GNNs and enables the state information to be parameterized as a low-dimensional embedding, which is leveraged by the agent to optimize power allocation strategies. Simulation results demonstrate that the proposed method effectively reduces average delay while ensuring user fairness, outperforms baseline methods, and exhibits scalability and generalization capability.