Fair Dynamic Spectrum Access via Fully Decentralized Multi-Agent Reinforcement Learning

📄 arXiv: 2503.24296v1 📥 PDF

作者: Yubo Zhang, Pedro Botelho, Trevor Gordon, Gil Zussman, Igor Kadota

分类: cs.NI, cs.LG

发布日期: 2025-03-31

备注: To appear in WiOpt 2025


💡 一句话要点

提出基于多智能体强化学习的公平动态频谱接入方案,实现去中心化网络资源优化。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 动态频谱接入 多智能体强化学习 去中心化网络 公平性 无线通信 资源分配 强化学习

📋 核心要点

  1. 现有动态频谱接入方法难以在完全去中心化的无线网络中,兼顾个体吞吐量最大化和网络整体公平性。
  2. 提出Fair Share RL (FSRL) 算法,通过状态增强、风险控制和公平驱动的奖励结构,实现去中心化公平性。
  3. 实验表明,FSRL在多种网络配置下,相比基线RL算法,公平性指标平均提升48.1%,最高提升89.0%。

📝 摘要(中文)

本文研究了一个去中心化的无线网络,其中多个源-目的对共享有限数量的正交频带。源节点以去中心化的方式学习随时间调整其传输策略(特别是频带选择策略),彼此不共享信息。源节点只能观察到自身传输的结果(即成功或冲突),事先不知道网络规模或其他源节点的传输策略。每个源节点的目标是最大化自身吞吐量,同时努力实现全网络的公平性。为此,我们提出了一种新颖的、完全去中心化的、基于强化学习(RL)的解决方案,该方案无需协调即可实现公平性。所提出的公平共享RL(FSRL)解决方案结合了:(i)具有半自适应时间参考的状态增强;(ii)利用风险控制和时间差分似然的架构;以及(iii)公平驱动的奖励结构。我们在超过50种网络设置中评估了FSRL,这些设置具有不同数量的智能体、不同数量的可用频谱、干扰源以及在Ad-hoc设置中。仿真结果表明,当我们将FSRL与文献中常见的基线RL算法进行比较时,在具有多个源节点和单个频带的严格设置中,FSRL的公平性(以Jain公平性指数衡量)最多可提高89.0%,平均可提高48.1%。

🔬 方法详解

问题定义:论文旨在解决去中心化无线网络中,多个源-目的对共享有限频谱资源时,如何在最大化个体吞吐量的同时,保证网络整体的公平性。现有方法通常需要中心化协调或信息共享,这在实际应用中难以实现,并且缺乏对公平性的明确优化。

核心思路:论文的核心思路是通过强化学习,使每个源节点能够独立学习最优的频谱接入策略,同时引入公平性驱动的奖励机制,引导智能体在追求自身利益的同时,兼顾网络的整体公平性。通过状态增强和风险控制,提高学习的稳定性和效率。

技术框架:FSRL算法的整体框架如下:每个源节点作为一个独立的智能体,通过与环境交互学习频谱接入策略。环境包括其他源节点和频谱资源。智能体观察自身传输结果(成功或冲突),并根据奖励函数更新策略。FSRL的关键组成部分包括:状态增强模块(引入时间参考),策略网络(采用风险控制和时间差分似然),以及公平驱动的奖励函数。

关键创新:FSRL的关键创新在于其完全去中心化的设计和对公平性的显式优化。与传统的强化学习方法不同,FSRL不需要中心化协调或节点间的信息共享。通过精心设计的奖励函数,智能体能够自发地学习到公平的频谱接入策略。此外,状态增强和风险控制机制提高了学习的稳定性和效率。

关键设计:FSRL的关键设计包括:(1) 状态增强:引入半自适应时间参考,帮助智能体区分不同的网络状态。(2) 策略网络:采用风险控制机制,避免智能体陷入局部最优解。使用时间差分似然,提高策略更新的效率。(3) 奖励函数:设计公平驱动的奖励函数,鼓励智能体在最大化自身吞吐量的同时,减少对其他智能体的影响。奖励函数通常包含吞吐量奖励和公平性惩罚项,具体形式需要根据实际场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在多种网络配置下,FSRL算法显著提高了网络的公平性。在具有多个源节点和单个频带的严格设置中,FSRL的Jain公平性指数比基线RL算法提高了高达89.0%。平均而言,FSRL的公平性指数提高了48.1%。此外,FSRL在不同数量的智能体、不同数量的可用频谱、存在干扰源以及在Ad-hoc设置中都表现出良好的性能。

🎯 应用场景

该研究成果可应用于各种去中心化的无线通信网络,例如认知无线电网络、物联网(IoT)网络和移动自组织网络(MANET)。通过FSRL算法,可以有效地提高频谱利用率,保证网络公平性,提升用户体验。未来,该方法还可以扩展到其他资源分配问题,例如计算资源分配和存储资源分配。

📄 摘要(原文)

We consider a decentralized wireless network with several source-destination pairs sharing a limited number of orthogonal frequency bands. Sources learn to adapt their transmissions (specifically, their band selection strategy) over time, in a decentralized manner, without sharing information with each other. Sources can only observe the outcome of their own transmissions (i.e., success or collision), having no prior knowledge of the network size or of the transmission strategy of other sources. The goal of each source is to maximize their own throughput while striving for network-wide fairness. We propose a novel fully decentralized Reinforcement Learning (RL)-based solution that achieves fairness without coordination. The proposed Fair Share RL (FSRL) solution combines: (i) state augmentation with a semi-adaptive time reference; (ii) an architecture that leverages risk control and time difference likelihood; and (iii) a fairness-driven reward structure. We evaluate FSRL in more than 50 network settings with different number of agents, different amounts of available spectrum, in the presence of jammers, and in an ad-hoc setting. Simulation results suggest that, when we compare FSRL with a common baseline RL algorithm from the literature, FSRL can be up to 89.0% fairer (as measured by Jain's fairness index) in stringent settings with several sources and a single frequency band, and 48.1% fairer on average.