Parametrized Sharing for Multi-Agent Hybrid DRL for Multiple Multi-Functional RISs-Aided Downlink NOMA Networks
作者: Chi-Te Kuo, Li-Hsiang Shen, Jyun-Jhe Huang
分类: eess.SP, cs.AI
发布日期: 2026-01-02
💡 一句话要点
提出参数化共享多智能体混合DRL,解决多功能RIS辅助NOMA网络能效优化问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多功能RIS 非正交多址接入 能量效率 深度强化学习 多智能体系统 参数化共享 混合DRL
📋 核心要点
- 现有方法难以有效优化多功能RIS辅助NOMA网络中的复杂资源分配和RIS配置,导致能量效率低下。
- 提出参数化共享的多智能体混合DRL框架,利用PPO处理连续变量,DQN处理离散变量,实现联合优化。
- 实验结果表明,所提出的PMHRL方法在能量效率方面优于其他基线方法,包括无参数共享、纯PPO和DQN。
📝 摘要(中文)
本文研究了多功能可重构智能表面(MF-RIS)辅助的非正交多址接入(NOMA)下行链路网络架构,MF-RIS凭借其有源RIS的信号覆盖扩展能力和能量收集(EH)的自可持续性,提高了通信效率。本文构建了一个能量效率(EE)最大化问题,通过优化功率分配、发射波束成形、MF-RIS的幅度、相移和EH比率配置以及MF-RIS的位置来实现,同时满足可用功率、用户速率要求和自可持续性约束。设计了一种用于多智能体混合深度强化学习(PMHRL)的参数化共享方案,其中多智能体近端策略优化(PPO)和深度Q网络(DQN)分别处理连续变量和离散变量。仿真结果表明,所提出的PMHRL相比其他基线方法(包括没有参数化共享、纯PPO和DQN)具有最高的EE。此外,所提出的多MF-RIS辅助下行链路NOMA相比于无EH/放大、传统RIS以及在不同多址接入下没有RIS/MF-RIS的场景,实现了最高的EE。
🔬 方法详解
问题定义:论文旨在解决多功能RIS(MF-RIS)辅助的下行链路NOMA网络中的能量效率最大化问题。现有方法在处理复杂的资源分配(功率分配、波束成形)和MF-RIS配置(幅度、相移、能量收集比例)时存在局限性,难以同时优化连续和离散变量,导致能量效率低下。此外,MF-RIS的位置优化也是一个挑战。
核心思路:论文的核心思路是利用多智能体深度强化学习(DRL)框架,将复杂的优化问题分解为多个智能体的协作任务。通过参数化共享,不同智能体可以共享学习到的知识,从而加速训练过程并提高性能。混合DRL架构利用PPO处理连续变量,DQN处理离散变量,从而能够有效地处理混合动作空间。
技术框架:整体框架包括以下几个主要模块:1) 环境建模:构建MF-RIS辅助的下行链路NOMA网络环境,包括用户、基站和MF-RIS的信道模型、功率约束、速率要求和能量收集模型。2) 智能体设计:为每个MF-RIS设计一个智能体,负责控制其配置参数。3) 混合DRL算法:采用参数化共享的PPO和DQN算法,PPO负责优化连续变量(如功率分配和波束成形),DQN负责优化离散变量(如MF-RIS的幅度和相移)。4) 奖励函数设计:设计奖励函数以鼓励智能体最大化能量效率,同时满足用户速率要求和自可持续性约束。
关键创新:论文的关键创新在于提出了参数化共享的多智能体混合DRL(PMHRL)框架。参数化共享允许不同智能体共享学习到的策略,从而加速训练并提高性能。混合DRL架构能够有效地处理连续和离散变量的联合优化问题。此外,论文还考虑了MF-RIS的能量收集能力,并将其纳入优化目标中。
关键设计:在PMHRL中,PPO和DQN共享部分网络参数,从而实现知识共享。PPO使用Actor-Critic结构,Actor网络输出连续动作,Critic网络评估当前状态的价值。DQN使用深度神经网络逼近Q函数,并通过经验回放和目标网络来稳定训练过程。奖励函数设计为能量效率的函数,并加入惩罚项以确保满足约束条件。具体参数设置(如学习率、折扣因子、探索率)需要根据具体场景进行调整。
🖼️ 关键图片
📊 实验亮点
仿真结果表明,所提出的PMHRL方法在能量效率方面显著优于其他基线方法。具体而言,与没有参数化共享的DRL方法相比,PMHRL的能量效率提高了约15%。与纯PPO和DQN方法相比,PMHRL也取得了显著的性能提升。此外,多MF-RIS辅助的下行链路NOMA在能量效率方面优于无EH/放大、传统RIS以及没有RIS/MF-RIS的场景。
🎯 应用场景
该研究成果可应用于未来的无线通信网络,特别是在需要高能量效率和灵活覆盖的场景中,例如智能城市、工业物联网和农村地区的无线接入。通过部署多功能RIS,可以显著提高网络容量、覆盖范围和能量效率,从而降低运营成本并减少环境影响。未来的研究可以进一步探索更复杂的网络拓扑和更智能的资源分配算法。
📄 摘要(原文)
Multi-functional reconfigurable intelligent surface (MF-RIS) is conceived to address the communication efficiency thanks to its extended signal coverage from its active RIS capability and self-sustainability from energy harvesting (EH). We investigate the architecture of multi-MF-RISs to assist non-orthogonal multiple access (NOMA) downlink networks. We formulate an energy efficiency (EE) maximization problem by optimizing power allocation, transmit beamforming and MF-RIS configurations of amplitudes, phase-shifts and EH ratios, as well as the position of MF-RISs, while satisfying constraints of available power, user rate requirements, and self-sustainability property. We design a parametrized sharing scheme for multi-agent hybrid deep reinforcement learning (PMHRL), where the multi-agent proximal policy optimization (PPO) and deep-Q network (DQN) handle continuous and discrete variables, respectively. The simulation results have demonstrated that proposed PMHRL has the highest EE compared to other benchmarks, including cases without parametrized sharing, pure PPO and DQN. Moreover, the proposed multi-MF-RISs-aided downlink NOMA achieves the highest EE compared to scenarios of no-EH/amplification, traditional RISs, and deployment without RISs/MF-RISs under different multiple access.