Tera-SpaceCom: GNN-based Deep Reinforcement Learning for Joint Resource Allocation and Task Offloading in TeraHertz Band Space Networks
作者: Zhifeng Hu, Chong Han, Wolfgang Gerstacker, Ian F. Akyildiz
分类: cs.LG
发布日期: 2024-09-12
💡 一句话要点
提出基于GNN-DRL的GRANT算法,解决太赫兹空间网络中联合资源分配和任务卸载问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 太赫兹通信 空间网络 资源分配 任务卸载 图神经网络 深度强化学习 卫星边缘计算
📋 核心要点
- 现有太赫兹空间通信网络中,联合资源分配和任务卸载问题是NP-hard的MINLP问题,难以高效求解。
- 提出基于GNN-DRL的GRANT算法,利用GNN学习卫星间关系,并采用多智能体和多任务机制协同优化。
- 实验结果表明,GRANT算法在资源效率、延迟、可训练参数和运行时间方面均优于基准方案。
📝 摘要(中文)
太赫兹空间通信(Tera-SpaceCom)被认为是实现各种空间科学和通信应用的有前景的技术。Tera-SpaceCom主要包括用于空间探索的太赫兹传感、为空间探索任务提供云服务的空间数据中心,以及通过太赫兹链路将这些任务中继到地面站(GS)或数据中心的低地球轨道(LEO)巨型星座。此外,为了减少数据中心的计算负担以及中继过程中的资源消耗和延迟,LEO巨型星座提供卫星边缘计算(SEC)服务,以直接计算空间探索任务,而无需将这些任务中继到数据中心。接收空间探索任务的LEO卫星将其部分任务卸载(即分配)到其相邻的LEO卫星,以进一步减少其计算负担。然而,对于Tera-SpaceCom SEC网络,高效的联合通信资源分配和计算任务卸载是一个NP-hard的混合整数非线性规划问题(MINLP),这是由于空间探索任务和子阵列的离散性以及发射功率的连续性所致。为了应对这一挑战,提出了一种基于图神经网络(GNN)-深度强化学习(DRL)的联合资源分配和任务卸载(GRANT)算法,目标是长期资源效率(RE)。特别是,GNN从卫星的连接信息中学习不同卫星之间的关系。此外,多智能体和多任务机制协同训练任务卸载和资源分配。与基准解决方案相比,GRANT不仅以相对较低的延迟实现了最高的RE,而且实现了最少的可训练参数和最短的运行时间。
🔬 方法详解
问题定义:论文旨在解决太赫兹空间通信网络中,LEO卫星星座的联合资源分配和任务卸载问题。现有方法难以有效处理任务的离散性、功率的连续性以及复杂的卫星间依赖关系,导致资源利用率低、延迟高。这是一个NP-hard的混合整数非线性规划问题(MINLP)。
核心思路:论文的核心思路是利用图神经网络(GNN)学习卫星之间的连接关系,并结合深度强化学习(DRL)进行决策。GNN能够捕捉卫星网络的拓扑结构和卫星间的依赖关系,DRL则能够学习最优的资源分配和任务卸载策略,从而实现长期资源效率的最大化。
技术框架:GRANT算法的技术框架主要包括以下几个模块:1) GNN模块:用于学习卫星网络的拓扑结构和卫星间的依赖关系,生成每个卫星的嵌入表示。2) DRL模块:基于GNN生成的嵌入表示,采用多智能体和多任务机制,学习每个卫星的资源分配和任务卸载策略。3) 奖励函数设计:设计合理的奖励函数,鼓励算法实现长期资源效率的最大化,同时考虑延迟等因素。
关键创新:论文的关键创新在于将GNN和DRL相结合,用于解决太赫兹空间通信网络中的联合资源分配和任务卸载问题。GNN能够有效地学习卫星网络的拓扑结构,DRL能够学习最优的策略。此外,多智能体和多任务机制的引入,使得算法能够更好地适应复杂的网络环境。
关键设计:GNN采用图卷积网络(GCN)结构,用于学习卫星网络的拓扑结构。DRL采用Actor-Critic框架,Actor网络用于生成资源分配和任务卸载策略,Critic网络用于评估策略的价值。奖励函数综合考虑了资源利用率、延迟和任务完成情况。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GRANT算法在资源效率方面优于基准方案,并且具有较低的延迟。此外,GRANT算法的可训练参数数量较少,运行时间较短,表明其具有较高的计算效率。具体性能提升幅度未知,但论文强调了其在资源效率、延迟、可训练参数和运行时间方面的优势。
🎯 应用场景
该研究成果可应用于未来的太赫兹空间通信网络,例如空间探索、空间数据中心和LEO卫星星座等场景。通过优化资源分配和任务卸载,可以提高网络性能,降低延迟,并支持更多复杂的空间应用,例如实时空间数据分析和处理。
📄 摘要(原文)
Terahertz (THz) space communications (Tera-SpaceCom) is envisioned as a promising technology to enable various space science and communication applications. Mainly, the realm of Tera-SpaceCom consists of THz sensing for space exploration, data centers in space providing cloud services for space exploration tasks, and a low earth orbit (LEO) mega-constellation relaying these tasks to ground stations (GSs) or data centers via THz links. Moreover, to reduce the computational burden on data centers as well as resource consumption and latency in the relaying process, the LEO mega-constellation provides satellite edge computing (SEC) services to directly compute space exploration tasks without relaying these tasks to data centers. The LEO satellites that receive space exploration tasks offload (i.e., distribute) partial tasks to their neighboring LEO satellites, to further reduce their computational burden. However, efficient joint communication resource allocation and computing task offloading for the Tera-SpaceCom SEC network is an NP-hard mixed-integer nonlinear programming problem (MINLP), due to the discrete nature of space exploration tasks and sub-arrays as well as the continuous nature of transmit power. To tackle this challenge, a graph neural network (GNN)-deep reinforcement learning (DRL)-based joint resource allocation and task offloading (GRANT) algorithm is proposed with the target of long-term resource efficiency (RE). Particularly, GNNs learn relationships among different satellites from their connectivity information. Furthermore, multi-agent and multi-task mechanisms cooperatively train task offloading and resource allocation. Compared with benchmark solutions, GRANT not only achieves the highest RE with relatively low latency, but realizes the fewest trainable parameters and the shortest running time.