Deep Reinforcement Learning-Based Cooperative Rate Splitting for Satellite-to-Underground Communication Networks

📄 arXiv: 2510.25562v1 📥 PDF

作者: Kaiqiang Lin, Kangchun Zhao, Yijie Mao

分类: cs.NI, eess.SP, eess.SY

发布日期: 2025-10-29

备注: 6 pages, 3 figures, 1 table, and submitted to IEEE TVT


💡 一句话要点

提出基于深度强化学习的协同速率分割方案,解决卫星-地下通信网络可靠下行链路问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 卫星通信 地下通信 协同速率分割 深度强化学习 PPO算法 资源分配 非凸优化

📋 核心要点

  1. 卫星-地下通信面临地下土壤衰减和空气-土壤界面折射的挑战,导致可靠下行链路通信困难。
  2. 提出协同速率分割(CRS)框架,利用地面中继解码并转发公共流,优化功率分配、消息分割和时隙调度。
  3. 基于PPO算法,设计分布感知动作建模和多分支Actor网络的深度强化学习方案,显著提升了最小可达速率。

📝 摘要(中文)

针对卫星-地下通信网络中地下土壤造成的严重信号衰减和空气-土壤界面折射导致的可靠下行链路通信难题,本文提出了一种新颖的协同速率分割(CRS)辅助传输框架。在该框架下,地面中继解码并将公共流转发到地下设备(UD)。基于此,我们构建了一个最大化UD间最小可达速率的max-min公平性优化问题,该问题联合优化功率分配、消息分割和时隙调度。为了解决不确定信道下这个高维非凸问题,我们开发了一个基于近端策略优化(PPO)算法的深度强化学习解决方案框架,该框架集成了分布感知动作建模和多分支Actor网络。在真实的地下管道监测场景下的仿真结果表明,与传统的基准策略相比,所提出的方法在各种数量的UD和地下条件下实现了超过167%的平均max-min速率增益。

🔬 方法详解

问题定义:论文旨在解决卫星-地下通信网络中,由于地下土壤的严重信号衰减和空气-土壤界面的折射,导致地下设备(UD)难以获得可靠下行链路通信的问题。现有方法通常难以有效应对这种复杂的信道环境,导致通信质量下降。

核心思路:论文的核心思路是引入协同速率分割(CRS)技术,利用地面中继站解码并将公共信息流转发给地下设备。通过合理地分割信息流,并优化功率分配、消息分割和时隙调度,从而最大化所有地下设备中最小的可达速率,实现公平性。

技术框架:整体框架包括卫星、地面中继站和地下设备。卫星向地面中继站发送信号,中继站解码后将信息分割为公共流和私有流,并将公共流转发给所有地下设备。同时,卫星也直接向地下设备发送私有流。整个过程涉及功率分配、消息分割和时隙调度三个关键环节。

关键创新:论文的关键创新在于将协同速率分割技术与深度强化学习相结合,以解决高维非凸优化问题。具体来说,利用PPO算法,设计了分布感知动作建模和多分支Actor网络,从而能够有效地学习最优的功率分配、消息分割和时隙调度策略。

关键设计:论文设计了多分支Actor网络,每个分支负责控制功率分配、消息分割和时隙调度中的一个方面。此外,还采用了分布感知动作建模,以更好地探索动作空间。损失函数的设计目标是最大化所有地下设备中最小的可达速率,同时考虑公平性约束。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真结果表明,所提出的基于深度强化学习的协同速率分割方案,在各种数量的地下设备和地下条件下,与传统的基准策略相比,实现了超过167%的平均max-min速率增益。这表明该方案能够显著提高卫星-地下通信网络的性能,并有效应对复杂的信道环境。

🎯 应用场景

该研究成果可应用于地下管道监测、地下矿井通信、环境监测等领域。通过提高卫星-地下通信的可靠性和速率,可以实现对地下环境的实时监测和数据传输,为相关领域的智能化管理提供技术支撑,具有重要的实际应用价值和潜在的社会经济效益。

📄 摘要(原文)

Reliable downlink communication in satellite-to-underground networks remains challenging due to severe signal attenuation caused by underground soil and refraction in the air-soil interface. To address this, we propose a novel cooperative rate-splitting (CRS)-aided transmission framework, where an aboveground relay decodes and forwards the common stream to underground devices (UDs). Based on this framework, we formulate a max-min fairness optimization problem that jointly optimizes power allocation, message splitting, and time slot scheduling to maximize the minimum achievable rate across UDs. To solve this high-dimensional non-convex problem under uncertain channels, we develop a deep reinforcement learning solution framework based on the proximal policy optimization (PPO) algorithm that integrates distribution-aware action modeling and a multi-branch actor network. Simulation results under a realistic underground pipeline monitoring scenario demonstrate that the proposed approach achieves average max-min rate gains exceeding $167\%$ over conventional benchmark strategies across various numbers of UDs and underground conditions.