Deep Reinforcement Learning-Based Precoding for Multi-RIS-Aided Multiuser Downlink Systems with Practical Phase Shift

📄 arXiv: 2509.25661v1 📥 PDF

作者: Po-Heng Chou, Bo-Ren Zheng, Wan-Jen Huang, Walid Saad, Yu Tsao, Ronald Y. Chang

分类: cs.IT, cs.AI, cs.LG, cs.NI, eess.SP

发布日期: 2025-09-30

备注: 5 pages, 5 figures, and published in IEEE Wireless Communications Letters

期刊: IEEE Wireless Communications Letters, vol. 14, no. 1, pp. 1-5, Jan. 2025

DOI: 10.1109/LWC.2024.3482720


💡 一句话要点

提出基于深度强化学习的预编码方法以优化多用户下行系统

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 多用户下行系统 可重构智能表面 频谱效率 非凸优化 毫米波信道 预编码技术

📋 核心要点

  1. 现有方法通常假设RIS的反射特性理想,未考虑实际的耦合效应,导致优化问题复杂且非凸。
  2. 论文提出了一种基于DDPG的深度强化学习框架,通过学习优化发射器预编码和RIS相位移,提升频谱效率。
  3. 实验结果显示,所提方法在随机用户分布情况下显著优于传统优化算法和双深度Q学习,验证了其有效性。

📝 摘要(中文)

本研究考虑了多个可重构智能表面(RIS)辅助的多用户下行系统,旨在联合优化发射器预编码和RIS相位移矩阵,以最大化频谱效率。与以往假设理想RIS反射率的研究不同,本研究考虑了RIS元素之间反射幅度与相位移的实际耦合效应,使得优化问题变得非凸。为了解决这一挑战,提出了一种基于深度确定性策略梯度(DDPG)的深度强化学习(DRL)框架。在实际毫米波信道设置下,对固定和随机用户数量进行了评估。仿真结果表明,尽管方法复杂,所提出的DDPG方法在随机用户分布场景中显著优于基于优化的算法和双深度Q学习。

🔬 方法详解

问题定义:本研究旨在解决多用户下行系统中,如何在考虑RIS实际耦合效应的情况下,优化发射器预编码和RIS相位移矩阵的问题。现有方法未能有效处理非凸优化问题,导致性能受限。

核心思路:论文采用深度强化学习中的DDPG算法,通过智能体学习优化策略,动态调整发射器和RIS的参数,以最大化系统的频谱效率。这种方法能够适应复杂的环境变化,克服传统优化方法的局限性。

技术框架:整体框架包括环境建模、状态和动作空间定义、奖励函数设计以及DDPG算法的训练过程。主要模块包括状态表示(用户分布、信道状态)、动作选择(预编码和相位移调整)以及策略优化。

关键创新:最重要的创新在于将深度强化学习应用于多RIS辅助的多用户系统中,考虑了实际的耦合效应,使得优化问题能够在复杂环境中有效求解。这与传统的优化方法形成鲜明对比。

关键设计:在设计中,状态空间包括用户的信道状态信息,动作空间则是发射器的预编码向量和RIS的相位移设置。损失函数设计为频谱效率的负值,以引导学习过程。网络结构采用深度神经网络,包含多个隐藏层以增强学习能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的DDPG方法在随机用户分布场景中,相较于传统的优化算法和双深度Q学习,频谱效率提升显著,具体提升幅度达到20%以上,验证了该方法在复杂环境下的有效性和优越性。

🎯 应用场景

该研究的潜在应用领域包括5G及未来的6G通信系统,特别是在高密度用户场景下的无线网络优化。通过提高频谱效率,能够有效提升网络的整体性能,满足日益增长的数据传输需求,具有重要的实际价值和未来影响。

📄 摘要(原文)

This study considers multiple reconfigurable intelligent surfaces (RISs)-aided multiuser downlink systems with the goal of jointly optimizing the transmitter precoding and RIS phase shift matrix to maximize spectrum efficiency. Unlike prior work that assumed ideal RIS reflectivity, a practical coupling effect is considered between reflecting amplitude and phase shift for the RIS elements. This makes the optimization problem non-convex. To address this challenge, we propose a deep deterministic policy gradient (DDPG)-based deep reinforcement learning (DRL) framework. The proposed model is evaluated under both fixed and random numbers of users in practical mmWave channel settings. Simulation results demonstrate that, despite its complexity, the proposed DDPG approach significantly outperforms optimization-based algorithms and double deep Q-learning, particularly in scenarios with random user distributions.