DRL-Based Spectrum Sharing for RIS-Aided Local High-Quality Wireless Networks

📄 arXiv: 2603.25332v1 📥 PDF

作者: Hamid Reza Hashempour, Mina Khadem, Eduard A. Jorswieck

分类: eess.SY

发布日期: 2026-03-26


💡 一句话要点

提出基于深度强化学习的频谱共享框架以提升RIS辅助无线网络性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 频谱共享 深度强化学习 可重构智能表面 无线网络 多VSP 效用最大化 马尔可夫决策过程

📋 核心要点

  1. 现有方法在频谱共享中面临干扰问题,难以有效提升服务质量(QoS)。
  2. 本文提出了一种基于深度强化学习的频谱共享框架,通过动态分配无线资源来优化多VSP的效用。
  3. 实验结果显示,SAC算法在收敛速度和稳定性上优于DDPG,效用达到了96%的基准水平。

📝 摘要(中文)

本文研究了一种智能频谱共享框架,旨在提升可重构智能表面(RIS)辅助的本地高质量无线网络(LHQWNs)在移动网络运营商(MNO)生态系统中的性能。尽管RIS常被认为可能引起干扰,但本研究表明,经过合理控制的RIS能够提升服务质量(QoS)。该系统通过动态分配无线资源,允许多个垂直服务提供商(VSPs)临时访问频谱。频谱被划分为分配给各个VSP的专用子信道和可供多个VSP共享的可重用子信道,同时利用RIS改善传播条件。我们构建了一个多VSP效用最大化问题,联合优化子信道分配、发射功率和RIS相位配置,同时考虑频谱接入成本、RIS租赁成本和QoS约束。由于得到的混合整数非线性规划(MINLP)问题难以用传统优化方法求解,因此将其建模为马尔可夫决策过程(MDP),并采用深度强化学习(DRL)进行求解。具体而言,开发并比较了深度确定性策略梯度(DDPG)和软演员-评论家(SAC)算法。仿真结果表明,SAC在收敛速度、稳定性和可实现效用方面优于DDPG,达到了穷举搜索基准的96%,展示了RIS在多VSP场景中提升整体效用的潜力。

🔬 方法详解

问题定义:本文旨在解决RIS辅助无线网络中频谱共享的效用最大化问题。现有方法在处理多VSP的频谱干扰和资源分配时存在效率低下和QoS保障不足的痛点。

核心思路:通过将频谱划分为专用和可重用子信道,结合深度强化学习的方法,动态优化资源分配,以提升多VSP的整体效用。

技术框架:整体框架包括频谱划分、RIS配置、发射功率调整等模块,采用马尔可夫决策过程(MDP)建模,并通过深度强化学习算法进行求解。

关键创新:本研究的创新点在于将复杂的频谱共享问题转化为MDP,并利用深度强化学习算法(如SAC)进行求解,显著提高了求解效率和效果。

关键设计:在算法设计中,设置了适当的损失函数以平衡效用最大化与QoS约束,同时优化了网络结构以提高学习效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SAC算法在收敛速度、稳定性和效用方面显著优于DDPG,达到了96%的基准水平,展示了RIS在多VSP场景中提升整体效用的潜力,具有重要的实际应用前景。

🎯 应用场景

该研究的潜在应用领域包括移动通信、智能城市和物联网等场景,能够为多种垂直行业提供高效的频谱资源管理方案,提升网络服务质量和用户体验。未来,随着5G及更高代际网络的普及,该框架将具有更广泛的应用价值。

📄 摘要(原文)

This paper investigates a smart spectrum-sharing framework for reconfigurable intelligent surface (RIS)-aided local high-quality wireless networks (LHQWNs) within a mobile network operator (MNO) ecosystem. Although RISs are often considered potentially harmful due to interference, this work shows that properly controlled RISs can enhance the quality of service (QoS). The proposed system enables temporary spectrum access for multiple vertical service providers (VSPs) by dynamically allocating radio resources according to traffic demand. The spectrum is divided into dedicated subchannels assigned to individual VSPs and reusable subchannels shared among multiple VSPs, while RIS is employed to improve propagation conditions. We formulate a multi-VSP utility maximization problem that jointly optimizes subchannel assignment, transmit power, and RIS phase configuration while accounting for spectrum access costs, RIS leasing costs, and QoS constraints. The resulting mixed-integer non-linear program (MINLP) is intractable using conventional optimization methods. To address this challenge, the problem is modeled as a Markov decision process (MDP) and solved using deep reinforcement learning (DRL). Specifically, deep deterministic policy gradient (DDPG) and soft actor-critic (SAC) algorithms are developed and compared. Simulation results show that SAC outperforms DDPG in convergence speed, stability, and achievable utility, reaching up to 96% of the exhaustive search benchmark and demonstrating the potential of RIS to improve overall utility in multi-VSP scenarios.