Energy Saving for Cell-Free Massive MIMO Networks: A Multi-Agent Deep Reinforcement Learning Approach

📄 arXiv: 2604.07133v1 📥 PDF

作者: Qichen Wang, Keyu Li, Ozan Alp Topal, Özlem Tugfe Demir, Mustafa Ozger, Cicek Cavdar

分类: cs.IT, cs.AI, cs.LG

发布日期: 2026-04-08


💡 一句话要点

提出基于多智能体深度强化学习的节能方案,用于蜂窝自由大规模MIMO网络。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 蜂窝自由大规模MIMO 多智能体深度强化学习 节能 天线重配置 睡眠模式 分布式控制 无线通信

📋 核心要点

  1. 传统CF mMIMO网络在动态流量下能耗高,缺乏灵活的节能机制。
  2. 提出MADRL算法,使各AP自主学习天线重配置和睡眠模式选择策略,实现分布式节能。
  3. 实验表明,该算法显著降低功耗,同时保持较低的丢包率,优于传统DQN算法。

📝 摘要(中文)

本文研究了动态流量条件下蜂窝自由大规模MIMO (CF mMIMO) 网络下行链路的节能问题。我们提出了一种多智能体深度强化学习 (MADRL) 算法,该算法使每个接入点 (AP) 能够自主控制天线重配置和高级睡眠模式 (ASM) 选择。经过训练后,所提出的框架以完全分布式的方式运行,无需集中控制,并允许每个AP动态适应实时流量波动。仿真结果表明,与没有任何节能方案的系统相比,该算法可降低功耗 (PC) 56.23%,与仅使用最轻睡眠模式的非学习机制相比,可降低功耗 30.12%,而丢包率仅略有增加。此外,与广泛使用的深度 Q 网络 (DQN) 算法相比,它实现了相似的 PC 水平,但丢包率显著降低。

🔬 方法详解

问题定义:论文旨在解决蜂窝自由大规模MIMO (CF mMIMO) 网络在动态流量条件下的高能耗问题。现有方法要么缺乏灵活的节能机制,要么依赖集中式控制,难以适应实时流量波动。此外,简单的睡眠模式切换策略可能导致性能下降,而传统的深度强化学习方法可能无法有效处理多智能体环境下的复杂决策问题。

核心思路:论文的核心思路是利用多智能体深度强化学习 (MADRL) 算法,使每个接入点 (AP) 能够自主学习最优的天线重配置和高级睡眠模式 (ASM) 选择策略。通过分布式决策,AP可以根据实时流量状况动态调整自身状态,从而在降低功耗的同时,保证网络性能。

技术框架:该框架包含多个智能体,每个智能体对应一个AP。每个AP通过观察局部环境(例如用户流量、信道状态等)来获取状态信息,然后根据自身的策略选择动作(例如天线重配置、睡眠模式选择)。所有AP的动作共同影响全局环境,并产生奖励信号。MADRL算法利用这些奖励信号来更新每个AP的策略,使其能够更好地适应动态流量条件。

关键创新:该论文的关键创新在于将MADRL算法应用于CF mMIMO网络的节能问题,实现了完全分布式的节能控制。与传统的集中式控制方法相比,该方法具有更好的可扩展性和鲁棒性。此外,通过联合优化天线重配置和睡眠模式选择,该方法能够更有效地降低功耗,同时保证网络性能。

关键设计:论文采用了Actor-Critic框架,每个AP都有一个Actor网络和一个Critic网络。Actor网络负责生成动作,Critic网络负责评估动作的价值。论文使用了多智能体深度确定性策略梯度 (MADDPG) 算法来训练Actor和Critic网络。奖励函数的设计考虑了功耗和丢包率之间的平衡。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真结果表明,所提出的MADRL算法与没有任何节能方案的系统相比,可降低功耗 (PC) 56.23%,与仅使用最轻睡眠模式的非学习机制相比,可降低功耗 30.12%,而丢包率仅略有增加。此外,与广泛使用的深度 Q 网络 (DQN) 算法相比,该算法实现了相似的 PC 水平,但丢包率显著降低。

🎯 应用场景

该研究成果可应用于未来的无线通信网络,尤其是在高密度部署的蜂窝自由大规模MIMO系统中,能够有效降低网络运营成本,提高能源利用效率,并为绿色通信的发展做出贡献。该方法也适用于其他需要分布式决策和资源管理的无线网络场景。

📄 摘要(原文)

This paper focuses on energy savings in downlink operation of cell-free massive MIMO (CF mMIMO) networks under dynamic traffic conditions. We propose a multi-agent deep reinforcement learning (MADRL) algorithm that enables each access point (AP) to autonomously control antenna re-configuration and advanced sleep mode (ASM) selection. After the training process, the proposed framework operates in a fully distributed manner, eliminating the need for centralized control and allowing each AP to dynamically adjust to real-time traffic fluctuations. Simulation results show that the proposed algorithm reduces power consumption (PC) by 56.23% compared to systems without any energy-saving scheme and by 30.12% relative to a non-learning mechanism that only utilizes the lightest sleep mode, with only a slight increase in drop ratio. Moreover, compared to the widely used deep Q-network (DQN) algorithm, it achieves a similar PC level but with a significantly lower drop ratio.