Deep Reinforcement Learning-Based Cooperative Rate Splitting for Satellite-to-Underground Communication Networks

作者: Kaiqiang Lin, Kangchun Zhao, Yijie Mao

分类: cs.NI, eess.SP, eess.SY

发布日期: 2025-10-29

备注: 6 pages, 3 figures, 1 table, and submitted to IEEE TVT

💡 一句话要点

提出基于深度强化学习的协同速率分割方案，解决卫星-地下通信网络可靠下行链路问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 卫星通信 地下通信 协同速率分割 深度强化学习 PPO算法 资源分配 非凸优化

📋 核心要点

卫星-地下通信面临地下土壤衰减和空气-土壤界面折射的挑战，导致可靠下行链路通信困难。
提出协同速率分割（CRS）框架，利用地面中继解码并转发公共流，优化功率分配、消息分割和时隙调度。
基于PPO算法，设计分布感知动作建模和多分支Actor网络的深度强化学习方案，显著提升了最小可达速率。

📝 摘要（中文）

针对卫星-地下通信网络中地下土壤造成的严重信号衰减和空气-土壤界面折射导致的可靠下行链路通信难题，本文提出了一种新颖的协同速率分割（CRS）辅助传输框架。在该框架下，地面中继解码并将公共流转发到地下设备（UD）。基于此，我们构建了一个最大化UD间最小可达速率的max-min公平性优化问题，该问题联合优化功率分配、消息分割和时隙调度。为了解决不确定信道下这个高维非凸问题，我们开发了一个基于近端策略优化（PPO）算法的深度强化学习解决方案框架，该框架集成了分布感知动作建模和多分支Actor网络。在真实的地下管道监测场景下的仿真结果表明，与传统的基准策略相比，所提出的方法在各种数量的UD和地下条件下实现了超过167%的平均max-min速率增益。

🔬 方法详解

问题定义：论文旨在解决卫星-地下通信网络中，由于地下土壤的严重信号衰减和空气-土壤界面的折射，导致地下设备（UD）难以获得可靠下行链路通信的问题。现有方法通常难以有效应对这种复杂的信道环境，导致通信质量下降。

核心思路：论文的核心思路是引入协同速率分割（CRS）技术，利用地面中继站解码并将公共信息流转发给地下设备。通过合理地分割信息流，并优化功率分配、消息分割和时隙调度，从而最大化所有地下设备中最小的可达速率，实现公平性。

技术框架：整体框架包括卫星、地面中继站和地下设备。卫星向地面中继站发送信号，中继站解码后将信息分割为公共流和私有流，并将公共流转发给所有地下设备。同时，卫星也直接向地下设备发送私有流。整个过程涉及功率分配、消息分割和时隙调度三个关键环节。

关键创新：论文的关键创新在于将协同速率分割技术与深度强化学习相结合，以解决高维非凸优化问题。具体来说，利用PPO算法，设计了分布感知动作建模和多分支Actor网络，从而能够有效地学习最优的功率分配、消息分割和时隙调度策略。

关键设计：论文设计了多分支Actor网络，每个分支负责控制功率分配、消息分割和时隙调度中的一个方面。此外，还采用了分布感知动作建模，以更好地探索动作空间。损失函数的设计目标是最大化所有地下设备中最小的可达速率，同时考虑公平性约束。

🖼️ 关键图片

📊 实验亮点

仿真结果表明，所提出的基于深度强化学习的协同速率分割方案，在各种数量的地下设备和地下条件下，与传统的基准策略相比，实现了超过167%的平均max-min速率增益。这表明该方案能够显著提高卫星-地下通信网络的性能，并有效应对复杂的信道环境。

🎯 应用场景

该研究成果可应用于地下管道监测、地下矿井通信、环境监测等领域。通过提高卫星-地下通信的可靠性和速率，可以实现对地下环境的实时监测和数据传输，为相关领域的智能化管理提供技术支撑，具有重要的实际应用价值和潜在的社会经济效益。

📄 摘要（原文）

Reliable downlink communication in satellite-to-underground networks remains challenging due to severe signal attenuation caused by underground soil and refraction in the air-soil interface. To address this, we propose a novel cooperative rate-splitting (CRS)-aided transmission framework, where an aboveground relay decodes and forwards the common stream to underground devices (UDs). Based on this framework, we formulate a max-min fairness optimization problem that jointly optimizes power allocation, message splitting, and time slot scheduling to maximize the minimum achievable rate across UDs. To solve this high-dimensional non-convex problem under uncertain channels, we develop a deep reinforcement learning solution framework based on the proximal policy optimization (PPO) algorithm that integrates distribution-aware action modeling and a multi-branch actor network. Simulation results under a realistic underground pipeline monitoring scenario demonstrate that the proposed approach achieves average max-min rate gains exceeding $167\%$ over conventional benchmark strategies across various numbers of UDs and underground conditions.

Deep Reinforcement Learning-Based Cooperative Rate Splitting for Satellite-to-Underground Communication Networks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理