Joint Resource Management for Energy-efficient UAV-assisted SWIPT-MEC: A Deep Reinforcement Learning Approach

📄 arXiv: 2505.03230v2 📥 PDF

作者: Yue Chen, Hui Kang, Jiahui Li, Geng Sun, Boxiong Wang, Jiacheng Wang, Cong Liang, Shuang Liang, Dusit Niyato

分类: cs.LG

发布日期: 2025-05-06 (更新: 2025-05-21)


💡 一句话要点

提出基于深度强化学习的无人机辅助SWIPT-MEC联合资源管理方案,提升能量效率和终端续航。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无人机 移动边缘计算 无线能量传输 深度强化学习 软Actor-Critic 资源管理 能量效率

📋 核心要点

  1. 现有无人机辅助MEC系统在复杂约束下难以平衡能量效率、终端续航和资源分配,尤其是在非线性能量收集和动态任务到达的情况下。
  2. 论文提出一种基于改进软Actor-Critic算法的联合资源管理方案,通过动作简化机制提升算法的收敛性和泛化能力。
  3. 实验结果表明,该方法在不同场景下均优于基线方法,实现了高效的能量管理和计算性能,并具有良好的泛化能力。

📝 摘要(中文)

本文提出了一种新型的无人机(UAV)辅助移动边缘计算(MEC)系统,该系统利用定向天线增强,为地面物联网(IoT)终端提供计算资源和能量支持,尤其适用于地面基础设施不可用的偏远地区和灾难场景。该系统集成了同步无线信息和能量传输(SWIPT)技术。为了平衡无人机能耗、终端电池电量和计算资源分配,同时考虑无人机电池容量限制、非线性能量收集特性和动态任务到达等约束,本文构建了一个双目标优化问题,同时考虑系统能量效率和终端电池可持续性。然后,将这个具有混合解空间的非凸问题重新表述为马尔可夫决策过程(MDP),并提出了一种改进的软Actor-Critic(SAC)算法,该算法具有动作简化机制,以增强其收敛性和泛化能力。仿真结果表明,所提出的方法在不同场景下优于各种基线,实现了高效的能源管理,同时保持了较高的计算性能。此外,该方法在不同场景中表现出强大的泛化能力,尤其是在复杂环境中,验证了所设计的边界惩罚和充电奖励机制的有效性。

🔬 方法详解

问题定义:论文旨在解决无人机辅助的SWIPT-MEC系统中,如何在复杂的约束条件下,例如有限的无人机电池容量、非线性的能量收集特性以及动态的任务到达,实现系统能量效率和终端电池续航能力之间的最佳平衡。现有方法难以在这些约束下进行有效的资源管理,导致能量效率低下和终端电池续航不足。

核心思路:论文的核心思路是将资源管理问题建模为一个马尔可夫决策过程(MDP),并使用深度强化学习(DRL)来寻找最优策略。通过改进软Actor-Critic(SAC)算法,并引入动作简化机制,来提升算法的收敛速度和泛化能力。这种设计旨在克服传统优化方法在处理复杂约束和动态环境时的局限性。

技术框架:整体框架包含以下几个主要模块:1) 环境建模:定义无人机、地面终端、任务到达、能量收集等环境要素。2) 状态空间设计:定义能够反映系统状态的关键变量,如无人机电量、终端电量、任务队列长度等。3) 动作空间设计:定义无人机可以执行的动作,包括计算资源分配、能量传输功率等。4) 奖励函数设计:定义能够引导智能体学习的奖励信号,包括能量效率、终端电池续航等。5) 改进的SAC算法:使用带有动作简化机制的SAC算法来训练智能体,使其学习最优的资源管理策略。

关键创新:论文的关键创新在于:1) 提出了一个同时考虑系统能量效率和终端电池可持续性的双目标优化问题。2) 针对该问题,设计了一种改进的SAC算法,通过引入动作简化机制,降低了动作空间的维度,从而提高了算法的收敛速度和泛化能力。3) 设计了边界惩罚和充电奖励机制,进一步提升了算法在复杂环境下的性能。

关键设计:在SAC算法中,动作简化机制通过将连续动作空间离散化,并选择具有代表性的动作子集,从而降低了动作空间的维度。边界惩罚机制在智能体选择超出范围的动作时给予负奖励,以约束智能体的行为。充电奖励机制在终端电池电量较低时给予正奖励,以鼓励智能体进行能量传输。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真结果表明,所提出的方法在不同场景下均优于基线方法。例如,在复杂环境下,该方法能够将系统能量效率提升15%-20%,同时保证终端电池的续航能力。此外,该方法在不同场景中表现出强大的泛化能力,验证了所设计的边界惩罚和充电奖励机制的有效性。

🎯 应用场景

该研究成果可应用于偏远地区或灾难场景下的物联网设备供能和计算卸载,例如环境监测、灾害救援、农业物联网等。通过无人机提供灵活的计算和能量支持,可以有效解决地面基础设施不足的问题,提高物联网系统的可靠性和效率,并延长设备的使用寿命。

📄 摘要(原文)

The integration of simultaneous wireless information and power transfer (SWIPT) technology in 6G Internet of Things (IoT) networks faces significant challenges in remote areas and disaster scenarios where ground infrastructure is unavailable. This paper proposes a novel unmanned aerial vehicle (UAV)-assisted mobile edge computing (MEC) system enhanced by directional antennas to provide both computational resources and energy support for ground IoT terminals. However, such systems require multiple trade-off policies to balance UAV energy consumption, terminal battery levels, and computational resource allocation under various constraints, including limited UAV battery capacity, non-linear energy harvesting characteristics, and dynamic task arrivals. To address these challenges comprehensively, we formulate a bi-objective optimization problem that simultaneously considers system energy efficiency and terminal battery sustainability. We then reformulate this non-convex problem with a hybrid solution space as a Markov decision process (MDP) and propose an improved soft actor-critic (SAC) algorithm with an action simplification mechanism to enhance its convergence and generalization capabilities. Simulation results have demonstrated that our proposed approach outperforms various baselines in different scenarios, achieving efficient energy management while maintaining high computational performance. Furthermore, our method shows strong generalization ability across different scenarios, particularly in complex environments, validating the effectiveness of our designed boundary penalty and charging reward mechanisms.