Multi-Satellite Beam Hopping and Power Allocation Using Deep Reinforcement Learning

作者: Xia Xie, Kexin Fan, Wenfeng Deng, Nikolaos Pappas, Qinyu Zhang

分类: eess.SY

发布日期: 2025-01-04

💡 一句话要点

提出基于深度强化学习的多卫星波束跳跃与功率分配算法以解决通信资源优化问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 波束跳跃 功率分配 卫星通信 非地球静止轨道 资源优化 网络吞吐量 延迟控制

📋 核心要点

在多NGSO卫星通信中，波束调度和资源分配的优化面临显著挑战，现有方法难以有效应对流量变化。
本文提出了一种基于深度强化学习的算法，通过混合动作空间优化波束照明模式和功率分配，提升系统性能。
实验结果显示，该算法在时变流量场景中，吞吐量提高了最多8.9%，LTCAD降低了最多69.2%，表现优于现有基准方法。

📝 摘要（中文）

在非地球静止轨道(NGSO)卫星通信系统中，有效利用波束跳跃(BH)技术对于应对不均匀的流量需求至关重要。然而，在多NGSO BH场景中，优化波束调度和资源分配仍然是一个重大挑战。本文提出了一种基于深度强化学习(DRL)的多NGSO BH算法，以优化波束照明模式和功率分配。该算法利用时间、空间和功率三个自由度，旨在优化长期吞吐量和长期累积平均延迟(LTCAD)。该解决方案基于近端策略优化(PPO)，结合离散和连续动作的混合动作空间。通过使用两个共享基础层的策略网络，提出的算法联合优化波束调度和功率分配。仿真结果表明，该算法在时变流量场景中显著降低了LTCAD，同时保持了高吞吐量。与四种基准方法相比，网络吞吐量提高了最多8.9%，LTCAD降低了最多69.2%。

🔬 方法详解

问题定义：本文旨在解决多NGSO卫星通信中波束调度和功率分配的优化问题。现有方法在应对不均匀流量需求时，难以实现高效的资源利用和延迟控制。

核心思路：论文提出的算法基于深度强化学习，利用时间、空间和功率三个自由度，通过混合动作空间优化波束照明和功率分配，以提升长期吞吐量和降低延迟。

技术框架：该算法采用近端策略优化(PPO)框架，包含两个策略网络：一个用于选择离散动作的波束照明模式，另一个用于管理连续空间中的功率分配。两个网络共享基础层，确保信息的有效传递与优化。

关键创新：最重要的创新在于结合了离散与连续动作的混合空间，使得算法在复杂的流量场景中能够灵活调整波束和功率分配，显著提升了系统的适应性和性能。

关键设计：算法设计中，采用了适应性的损失函数来平衡吞吐量与延迟，同时在网络结构上，使用了共享基础层以提高学习效率，确保了策略的稳定性与收敛性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所提算法在时变流量场景中表现优异，网络吞吐量相比基准方法提高了最多8.9%，同时长期累积平均延迟(LTCAD)降低了最多69.2%。这些结果表明该算法在实际应用中的有效性和优越性。

🎯 应用场景

该研究的潜在应用领域包括卫星互联网、全球通信网络以及应急通信系统等。通过优化波束调度和功率分配，可以有效提升卫星通信的资源利用率和服务质量，具有重要的实际价值和广泛的应用前景。未来，该技术有望在动态流量环境中实现更高效的通信解决方案。

📄 摘要（原文）

In non-geostationary orbit (NGSO) satellite communication systems, effectively utilizing beam hopping (BH) technology is crucial for addressing uneven traffic demands. However, optimizing beam scheduling and resource allocation in multi-NGSO BH scenarios remains a significant challenge. This paper proposes a multi-NGSO BH algorithm based on deep reinforcement learning (DRL) to optimize beam illumination patterns and power allocation. By leveraging three degrees of freedom (i.e., time, space, and power), the algorithm aims to optimize the long-term throughput and the long-term cumulative average delay (LTCAD). The solution is based on proximal policy optimization (PPO) with a hybrid action space combining discrete and continuous actions. Using two policy networks with a shared base layer, the proposed algorithm jointly optimizes beam scheduling and power allocation. One network selects beam illumination patterns in the discrete action space, while the other manages power allocation in the continuous space. Simulation results show that the proposed algorithm significantly reduces LTCAD while maintaining high throughput in time-varying traffic scenarios. Compared to the four benchmark methods, it improves network throughput by up to $8.9\%$ and reduces LTCAD by up to $69.2\%$

Multi-Satellite Beam Hopping and Power Allocation Using Deep Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理