Deep Reinforcement Learning-Based Precoding for Multi-RIS-Aided Multiuser Downlink Systems with Practical Phase Shift
作者: Po-Heng Chou, Bo-Ren Zheng, Wan-Jen Huang, Walid Saad, Yu Tsao, Ronald Y. Chang
分类: cs.IT, cs.AI, cs.LG, cs.NI, eess.SP
发布日期: 2025-09-30
备注: 5 pages, 5 figures, and published in IEEE Wireless Communications Letters
期刊: IEEE Wireless Communications Letters, vol. 14, no. 1, pp. 1-5, Jan. 2025
💡 一句话要点
针对多RIS辅助多用户下行链路,提出基于DDPG的预编码方案,优化频谱效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: RIS辅助通信 深度强化学习 DDPG 预编码 相位偏移 频谱效率 毫米波通信
📋 核心要点
- 现有RIS辅助通信研究通常假设理想反射,忽略了实际RIS元件中反射幅度和相位偏移的耦合效应,导致优化问题复杂化。
- 本文提出基于DDPG的深度强化学习框架,联合优化发射机预编码和RIS相位偏移,以应对非凸优化问题并最大化频谱效率。
- 实验结果表明,在实际毫米波信道和随机用户分布场景下,所提DDPG方法显著优于传统优化算法和双重深度Q学习方法。
📝 摘要(中文)
本研究考虑了多重可重构智能表面(RIS)辅助的多用户下行链路系统,目标是联合优化发射机预编码和RIS相位偏移矩阵,以最大化频谱效率。与假设理想RIS反射率的先前工作不同,本文考虑了RIS元件反射幅度和相位偏移之间的实际耦合效应,这使得优化问题变为非凸。为了解决这个挑战,我们提出了一种基于深度确定性策略梯度(DDPG)的深度强化学习(DRL)框架。所提出的模型在实际毫米波信道设置下,针对固定和随机数量的用户进行了评估。仿真结果表明,尽管其复杂性,所提出的DDPG方法明显优于基于优化的算法和双重深度Q学习,特别是在具有随机用户分布的场景中。
🔬 方法详解
问题定义:论文旨在解决多RIS辅助多用户下行链路系统中,在考虑实际RIS元件的幅相耦合效应下,如何联合优化发射机预编码和RIS相位偏移矩阵,以最大化频谱效率的问题。现有方法通常假设理想的RIS反射,忽略了实际的幅相耦合,导致优化结果与实际性能存在差距,并且优化问题本身是非凸的,难以求解。
核心思路:论文的核心思路是利用深度强化学习(DRL)方法,特别是深度确定性策略梯度(DDPG)算法,直接学习最优的预编码和相位偏移策略。DDPG能够处理连续动作空间,适合优化预编码和相位偏移这些连续变量。通过与环境的交互,智能体能够学习到在实际幅相耦合效应下的最优策略,从而最大化频谱效率。
技术框架:整体框架包括三个主要部分:用户、基站(BS)和多个RIS。基站向多个用户发送数据,RIS通过调整相位偏移来增强信号质量。DDPG智能体位于基站,接收环境状态(例如信道状态信息、用户位置等),输出预编码矩阵和RIS相位偏移向量。环境根据智能体的动作更新状态,并返回奖励(频谱效率)。DDPG智能体通过不断与环境交互,学习最大化累积奖励的策略。
关键创新:论文的关键创新在于将DDPG应用于解决考虑实际RIS幅相耦合效应的预编码和相位偏移联合优化问题。与传统的优化算法相比,DDPG不需要对问题进行简化或凸优化,可以直接处理非凸问题。此外,DDPG能够适应动态变化的环境,例如用户位置的变化。
关键设计:DDPG智能体包括Actor网络和Critic网络。Actor网络用于生成预编码矩阵和RIS相位偏移向量,Critic网络用于评估Actor网络的动作。奖励函数被设计为频谱效率。状态空间包括信道状态信息、用户位置等。动作空间包括预编码矩阵和RIS相位偏移向量。为了提高训练效率,使用了经验回放和目标网络等技术。
📊 实验亮点
仿真结果表明,在实际毫米波信道环境下,所提出的DDPG方法在频谱效率方面显著优于传统的优化算法和双重深度Q学习(Double DQN)方法。特别是在随机用户分布的场景下,DDPG的性能提升更为明显,验证了其在复杂环境下的适应性和优越性。具体性能提升幅度未知,原文未给出明确数据。
🎯 应用场景
该研究成果可应用于未来的无线通信系统,尤其是在毫米波通信和大规模MIMO系统中,通过部署RIS来增强信号覆盖和提高频谱效率。实际应用包括室内覆盖增强、热点区域容量提升以及偏远地区通信保障等。该技术有助于实现更高效、更智能的无线通信网络。
📄 摘要(原文)
This study considers multiple reconfigurable intelligent surfaces (RISs)-aided multiuser downlink systems with the goal of jointly optimizing the transmitter precoding and RIS phase shift matrix to maximize spectrum efficiency. Unlike prior work that assumed ideal RIS reflectivity, a practical coupling effect is considered between reflecting amplitude and phase shift for the RIS elements. This makes the optimization problem non-convex. To address this challenge, we propose a deep deterministic policy gradient (DDPG)-based deep reinforcement learning (DRL) framework. The proposed model is evaluated under both fixed and random numbers of users in practical mmWave channel settings. Simulation results demonstrate that, despite its complexity, the proposed DDPG approach significantly outperforms optimization-based algorithms and double deep Q-learning, particularly in scenarios with random user distributions.