Task Delay and Energy Consumption Minimization for Low-altitude MEC via Evolutionary Multi-objective Deep Reinforcement Learning
作者: Geng Sun, Weilong Ma, Jiahui Li, Zemin Sun, Jiacheng Wang, Dusit Niyato, Shiwen Mao
分类: cs.LG, cs.NE, cs.NI
发布日期: 2025-01-11
💡 一句话要点
提出基于演化多目标深度强化学习的低空MEC任务延迟与能耗最小化方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 无人机辅助MEC 多目标优化 深度强化学习 演化算法 任务卸载 低空经济
📋 核心要点
- 无人机辅助MEC在低空经济中至关重要,尤其是在山区或灾区等复杂环境中,但现有方法难以有效平衡任务延迟和无人机能耗。
- 论文提出一种基于演化框架的多目标深度强化学习算法,通过动态调整权重来优化非支配策略,从而平衡任务延迟和能耗。
- 实验结果表明,所提出的算法在平衡多个优化目标和获得更优的非支配解方面优于其他方法,提升了系统性能。
📝 摘要(中文)
本文研究了无人机辅助移动边缘计算(UAV-assisted MEC)系统中计算任务卸载问题,旨在最小化任务延迟和无人机的能量消耗。针对地面设备(GDs)的任务卸载,构建了一个计算延迟和能量消耗多目标优化问题(CDECMOP),以同时提升系统性能并降低成本。该问题被建模为多目标马尔可夫决策过程(MOMDP),并提出了一种基于演化框架的多目标深度强化学习(DRL)算法,以动态调整权重并获得非支配策略。此外,为了确保稳定收敛并提高性能,还引入了目标分布学习(TDL)算法。仿真结果表明,与其它方法相比,该算法能够更好地平衡多个优化目标,并获得更优的非支配解。
🔬 方法详解
问题定义:论文旨在解决无人机辅助移动边缘计算(UAV-assisted MEC)中的计算任务卸载问题,即如何在最小化任务延迟的同时,降低无人机的能量消耗。现有方法通常难以在延迟和能耗之间取得良好的平衡,尤其是在复杂的低空环境中。
核心思路:论文的核心思路是将任务卸载问题建模为多目标优化问题,并利用多目标深度强化学习(DRL)算法来寻找Pareto最优解。通过演化框架动态调整不同目标的权重,从而在延迟和能耗之间进行权衡。
技术框架:整体框架包括以下几个主要模块:1) 环境建模:将UAV-assisted MEC系统建模为多目标马尔可夫决策过程(MOMDP)。2) 演化多目标DRL:使用深度强化学习算法训练策略网络,并利用演化算法动态调整目标权重。3) 目标分布学习(TDL):引入TDL算法以确保训练的稳定收敛并提高性能。
关键创新:论文的关键创新在于将演化算法与多目标深度强化学习相结合,从而能够动态地调整不同优化目标的权重,并获得更好的Pareto最优解。此外,引入目标分布学习算法进一步提高了算法的稳定性和性能。与传统的单目标优化方法相比,该方法能够更好地适应复杂环境下的多目标优化问题。
关键设计:论文中,策略网络采用深度神经网络结构,输入状态包括无人机的位置、能量状态、任务队列长度等信息,输出为任务卸载决策。损失函数设计为多目标优化问题的Pareto支配关系,通过演化算法动态调整不同目标的权重。目标分布学习算法则通过学习目标值的分布来稳定训练过程。
🖼️ 关键图片
📊 实验亮点
仿真结果表明,所提出的基于演化多目标深度强化学习算法在平衡任务延迟和能量消耗方面优于其他方法。具体来说,该算法能够获得更优的非支配解,即在相同的能量消耗下,任务延迟更低,或者在相同的任务延迟下,能量消耗更低。与传统方法相比,该算法在多个指标上均有显著提升。
🎯 应用场景
该研究成果可应用于低空经济中的多种场景,例如:无人机物流、农业监测、环境监测、灾害救援等。通过优化无人机的任务卸载策略,可以降低任务延迟,延长无人机续航时间,提高任务完成效率,从而提升低空经济的整体效益。未来,该技术还可以扩展到其他边缘计算场景,例如:车载边缘计算、工业物联网等。
📄 摘要(原文)
The low-altitude economy (LAE), driven by unmanned aerial vehicles (UAVs) and other aircraft, has revolutionized fields such as transportation, agriculture, and environmental monitoring. In the upcoming six-generation (6G) era, UAV-assisted mobile edge computing (MEC) is particularly crucial in challenging environments such as mountainous or disaster-stricken areas. The computation task offloading problem is one of the key issues in UAV-assisted MEC, primarily addressing the trade-off between minimizing the task delay and the energy consumption of the UAV. In this paper, we consider a UAV-assisted MEC system where the UAV carries the edge servers to facilitate task offloading for ground devices (GDs), and formulate a calculation delay and energy consumption multi-objective optimization problem (CDECMOP) to simultaneously improve the performance and reduce the cost of the system. Then, by modeling the formulated problem as a multi-objective Markov decision process (MOMDP), we propose a multi-objective deep reinforcement learning (DRL) algorithm within an evolutionary framework to dynamically adjust the weights and obtain non-dominated policies. Moreover, to ensure stable convergence and improve performance, we incorporate a target distribution learning (TDL) algorithm. Simulation results demonstrate that the proposed algorithm can better balance multiple optimization objectives and obtain superior non-dominated solutions compared to other methods.