SliceFed: Federated Constrained Multi-Agent DRL for Dynamic Spectrum Slicing in 6G

作者: Hossein Mohammadi, Seyed Bagher Hashemi Natanzi, Ramak Nassiri, Jamshid Hassanpour, Bo Tang, Vuk Marojevic

分类: cs.NI, eess.SY

发布日期: 2026-03-12

备注: 4 figures, 3 algorithms charts

💡 一句话要点

SliceFed：面向6G动态频谱切片的联邦约束多智能体DRL

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 动态频谱切片 联邦学习 多智能体强化学习 约束优化 6G无线通信

📋 核心要点

现有动态频谱切片方法难以在6G密集网络中同时满足QoS、处理信道动态和保护数据隐私。
SliceFed利用联邦学习框架下的约束多智能体DRL，在保证数据隐私的同时，优化频谱效率并满足URLLC延迟等约束。
实验表明，SliceFed在满足URLLC延迟截止时间方面表现出色，且对流量负载变化具有很强的鲁棒性。

📝 摘要（中文）

动态频谱切片是6G无线接入网（RAN）的关键技术，它允许多种异构服务共存。然而，在密集、干扰受限的部署中优化资源分配仍然具有挑战性，这归因于非平稳的信道动态、严格的服务质量（QoS）要求以及数据隐私的需求。本文提出了SliceFed，一种新颖的联邦约束多智能体深度强化学习（F-MADRL）框架。SliceFed将切片问题建模为约束马尔可夫决策过程（CMDP），其中自治的gNB智能体最大化频谱效率，同时显式地满足小区间干扰预算和严格的超可靠低延迟通信（URLLC）延迟截止时间。我们采用拉格朗日原始-对偶方法与近端策略优化（PPO）相结合来强制执行约束，同时联邦平均实现了协作学习而无需交换原始本地数据。在密集多小区环境中的大量仿真表明，SliceFed收敛到稳定、安全感知的策略。与启发式和无约束基线不同，SliceFed实现了近100%的1毫秒URLLC延迟截止时间满足率，并表现出对流量负载变化的卓越鲁棒性，验证了其在可靠且可扩展的6G频谱管理中的潜力。

🔬 方法详解

问题定义：论文旨在解决6G无线接入网中动态频谱切片问题，特别是在密集部署场景下，如何有效地进行资源分配，以最大化频谱效率，同时满足严格的QoS要求，例如超可靠低延迟通信（URLLC）的延迟限制，并保护用户数据的隐私。现有方法，如启发式算法和传统的强化学习方法，难以同时处理非平稳的信道动态、复杂的干扰环境以及严格的约束条件。

核心思路：论文的核心思路是将动态频谱切片问题建模为一个约束马尔可夫决策过程（CMDP），并利用联邦学习框架下的多智能体深度强化学习（MADRL）来解决。通过联邦学习，每个基站（gNB）可以在本地进行策略学习，然后将学习到的模型参数上传到中央服务器进行聚合，从而实现协作学习，而无需共享原始数据，保护了数据隐私。同时，采用拉格朗日原始-对偶方法来处理CMDP中的约束条件，确保满足URLLC延迟等关键QoS要求。

技术框架：SliceFed框架主要包含以下几个模块：1) 本地智能体训练：每个gNB作为一个智能体，使用本地数据进行策略学习，目标是最大化频谱效率。2) 约束处理：使用拉格朗日原始-对偶方法将约束条件转化为奖励函数的一部分，从而在策略学习过程中考虑约束。3) 联邦平均：中央服务器收集来自各个gNB的策略参数，并进行联邦平均，更新全局模型。4) 全局模型分发：中央服务器将更新后的全局模型分发给各个gNB，用于下一轮的本地训练。

关键创新：SliceFed的关键创新在于将联邦学习与约束多智能体深度强化学习相结合，从而在保证数据隐私的同时，实现了高效的频谱资源分配和严格的QoS保证。与传统的集中式MADRL方法相比，SliceFed避免了数据共享，提高了系统的安全性。与无约束的DRL方法相比，SliceFed能够显式地处理QoS约束，确保满足URLLC等关键业务的需求。

关键设计：论文采用了近端策略优化（PPO）算法作为本地智能体的学习算法。PPO是一种常用的策略梯度算法，具有较好的稳定性和收敛性。拉格朗日原始-对偶方法用于处理约束条件，通过引入拉格朗日乘子，将约束优化问题转化为无约束优化问题。具体的网络结构和参数设置在论文中没有详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SliceFed能够实现近100%的1毫秒URLLC延迟截止时间满足率，显著优于启发式算法和无约束的DRL基线。此外，SliceFed对流量负载变化表现出卓越的鲁棒性，能够在不同的网络条件下保持稳定的性能，验证了其在实际应用中的潜力。

🎯 应用场景

SliceFed可应用于未来的6G无线通信系统，特别是在需要支持多种异构服务和严格QoS要求的场景中，例如工业自动化、自动驾驶和远程医疗。该研究成果有助于提高频谱利用率，降低延迟，并增强系统的可靠性和安全性，为6G网络的智能化和自动化管理奠定基础。

📄 摘要（原文）

Dynamic spectrum slicing is a critical enabler for 6G Radio Access Networks (RANs), allowing the coexistence of heterogeneous services. However, optimizing resource allocation in dense, interference-limited deployments remains challenging due to non-stationary channel dynamics, strict Quality-of-Service (QoS) requirements, and the need for data privacy. In this paper, we propose SliceFed, a novel Federated Constrained Multi-Agent Deep Reinforcement Learning (F-MADRL) framework. SliceFed formulates the slicing problem as a Constrained Markov Decision Process (CMDP) where autonomous gNB agents maximize spectral efficiency while explicitly satisfying inter-cell interference budgets and hard ultra-reliable low-latency communication (URLLC) latency deadlines. We employ a Lagrangian primal-dual approach integrated with Proximal Policy Optimization (PPO) to enforce constraints, while Federated Averaging enables collaborative learning without exchanging raw local data. Extensive simulations in a dense multi-cell environment demonstrate that SliceFed converges to a stable, safety-aware policy. Unlike heuristic and unconstrained baselines, SliceFed achieves nearly 100% satisfaction of 1~ms URLLC latency deadlines and exhibits superior robustness to traffic load variations, verifying its potential for reliable and scalable 6G spectrum management.

SliceFed: Federated Constrained Multi-Agent DRL for Dynamic Spectrum Slicing in 6G

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理