A Hierarchical DRL Approach for Resource Optimization in Multi-RIS Multi-Operator Networks
作者: Haocheng Zhang, Wei Wang, Hao Zhou, Zhiping Lu, Ming Li
分类: eess.SY
发布日期: 2024-10-16 (更新: 2025-02-21)
💡 一句话要点
提出一种分层DRL方法,用于多RIS多运营商网络中的资源优化。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 可重构智能表面 多运营商网络 资源优化 分层强化学习 深度强化学习 近端策略优化 6G通信
📋 核心要点
- 现有方法难以在多运营商网络中有效协调RIS资源,面临干扰管理和隐私保护的挑战。
- 论文提出分层DRL方法,将RIS资源优化分解为RP和OP代理的子任务,实现高效的资源分配。
- 实验结果表明,所提出的HPPO和S-HPPO算法在资源优化方面优于其他基准,且S-HPPO在大规模场景下收敛更快。
📝 摘要(中文)
随着可重构智能表面(RIS)成为未来第六代(6G)网络中的关键技术,在实际多运营商(OP)网络中部署RIS面临着重大挑战,包括OP之间RIS配置的协调、干扰管理和隐私维护。一种有前景的策略是将RIS视为由RIS提供商(RP)管理的公共资源,通过允许多个OP动态访问来提高资源分配效率。然而,协调管理和优化RIS配置的复杂性大大增加了实施难度。本文提出了一种分层深度强化学习(HDRL)方法,将复杂的RIS资源优化问题分解为多个子任务。具体而言,顶层RP代理负责RIS分配,而底层OP代理控制其分配的RIS,并处理波束成形、RIS相移和用户关联。通过利用半马尔可夫决策过程(SMDP)理论,我们建立了RP和OP之间复杂的交互机制,并提出了一种先进的分层近端策略优化(HPPO)算法。此外,我们提出了一种改进的顺序HPPO(S-HPPO)算法,以解决单个RP代理遇到的维度灾难。实验结果验证了HPPO算法在各种环境参数下的稳定性,证明了其在联合资源优化方面优于其他基准。最后,我们对所提出的S-HPPO和HPPO算法进行了详细的比较分析,表明S-HPPO算法在大型RIS分配场景中实现了更快的收敛速度和更高的性能。
🔬 方法详解
问题定义:论文旨在解决多RIS多运营商网络中,如何高效地进行RIS资源分配和配置优化的问题。现有方法通常难以在多个运营商之间协调RIS资源,同时面临着严重的干扰管理和隐私保护问题,导致资源利用率低下。
核心思路:论文的核心思路是将复杂的RIS资源优化问题分解为多个子问题,并采用分层强化学习的方法进行求解。通过引入RIS提供商(RP)和多个运营商(OP)代理,RP负责RIS的整体分配,OP负责控制各自的RIS进行波束成形等操作,从而实现分布式的资源优化。
技术框架:整体框架包含一个顶层的RP代理和多个底层的OP代理。RP代理负责将RIS资源分配给不同的OP代理,OP代理则根据分配到的RIS资源,进行波束成形、相移调整和用户关联等操作。RP和OP之间通过半马尔可夫决策过程(SMDP)进行交互,RP的决策影响OP的状态,OP的动作影响RP的奖励。
关键创新:论文的关键创新在于提出了分层近端策略优化(HPPO)算法和顺序HPPO(S-HPPO)算法。HPPO算法利用分层结构,降低了问题的复杂度,提高了学习效率。S-HPPO算法则通过顺序执行RP和OP的策略,进一步解决了维度灾难问题,尤其适用于大规模RIS分配场景。
关键设计:RP和OP代理均采用深度神经网络作为策略网络,使用近端策略优化(PPO)算法进行训练。RP的奖励函数设计旨在最大化整个网络的吞吐量,同时考虑公平性。OP的奖励函数则侧重于最大化自身用户的吞吐量。S-HPPO算法的关键在于RP代理先进行决策,然后OP代理根据RP的决策进行后续操作,从而降低了联合动作空间的维度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的HPPO算法在各种环境参数下都表现出良好的稳定性,并且在联合资源优化方面优于其他基准算法。S-HPPO算法在大型RIS分配场景中表现出更快的收敛速度和更高的性能。例如,S-HPPO算法相比于HPPO算法,在特定场景下吞吐量提升了约10%-15%。
🎯 应用场景
该研究成果可应用于未来的6G移动通信网络,尤其是在需要大规模RIS部署和多运营商共享资源的场景下。通过优化RIS资源分配,可以显著提高网络容量、覆盖范围和用户体验,同时降低运营成本,为智慧城市、工业互联网等应用提供更好的网络支持。
📄 摘要(原文)
As reconfigurable intelligent surfaces (RIS) emerge as a pivotal technology in the upcoming sixth-generation (6G) networks, their deployment within practical multiple operator (OP) networks presents significant challenges, including the coordination of RIS configurations among OPs, interference management, and privacy maintenance. A promising strategy is to treat RIS as a public resource managed by an RIS provider (RP), which can enhance resource allocation efficiency by allowing dynamic access for multiple OPs. However, the intricate nature of coordinating management and optimizing RIS configurations significantly complicates the implementation process. In this paper, we propose a hierarchical deep reinforcement learning (HDRL) approach that decomposes the complicated RIS resource optimization problem into several subtasks. Specifically, a top-level RP-agent is responsible for RIS allocation, while low-level OP-agents control their assigned RISs and handle beamforming, RIS phase-shifts, and user association. By utilizing the semi-Markov decision process (SMDP) theory, we establish a sophisticated interaction mechanism between the RP and OPs, and introduce an advanced hierarchical proximal policy optimization (HPPO) algorithm. Furthermore, we propose an improved sequential-HPPO (S-HPPO) algorithm to address the curse of dimensionality encountered with a single RP-agent. Experimental results validate the stability of the HPPO algorithm across various environmental parameters, demonstrating its superiority over other benchmarks for joint resource optimization. Finally, we conduct a detailed comparative analysis between the proposed S-HPPO and HPPO algorithms, showcasing that the S-HPPO algorithm achieves faster convergence and improved performance in large-scale RIS allocation scenarios.