Multi-Agent Actor-Critic with Harmonic Annealing Pruning for Dynamic Spectrum Access Systems

📄 arXiv: 2503.15172v1 📥 PDF

作者: George Stamatelis, Angelos-Nikolaos Kanatas, George C. Alexandropoulos

分类: cs.LG, cs.AI, cs.NI

发布日期: 2025-03-19

备注: 5 pages, 3 figures, 1 table, submited to an IEEE conference


💡 一句话要点

提出基于谐波退火剪枝的多智能体Actor-Critic算法,用于动态频谱接入系统。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 动态频谱接入 神经网络剪枝 谐波退火 稀疏模型

📋 核心要点

  1. 现有MADRL模型计算量大,难以在资源受限的边缘设备上部署,限制了其在动态频谱接入等领域的应用。
  2. 提出一种稀疏循环MARL框架,结合渐进式神经网络剪枝和独立的actor全局critic范式,降低模型复杂度。
  3. 引入谐波退火稀疏度调度器,在保证性能的同时,实现更高的模型稀疏度,实验结果优于传统方法。

📝 摘要(中文)

多智能体深度强化学习(MADRL)已成为优化复杂环境中分散决策系统的强大工具,例如动态频谱接入(DSA)。然而,由于深度学习模型的高计算成本,在资源受限的边缘设备上部署它们仍然具有挑战性。为了应对这一挑战,本文提出了一种新颖的稀疏循环MARL框架,该框架将渐进式神经网络剪枝集成到独立的actor全局critic范式中。此外,我们引入了一种谐波退火稀疏度调度器,在大稀疏度下,该调度器实现了与标准线性和多项式剪枝调度器相当,甚至在某些情况下优于它们的性能。我们的实验研究表明,所提出的DSA框架可以在不同的训练条件下发现卓越的策略,优于传统的DSA、MADRL基线和最先进的剪枝技术。

🔬 方法详解

问题定义:论文旨在解决动态频谱接入(DSA)系统中,多智能体深度强化学习(MADRL)模型计算复杂度高,难以在资源受限的边缘设备上部署的问题。现有方法,如传统的DSA策略和MADRL基线,在性能上存在局限性。此外,现有的剪枝技术,如线性或多项式剪枝,在保证性能的同时,难以达到较高的稀疏度。

核心思路:论文的核心思路是通过神经网络剪枝,降低MADRL模型的计算复杂度,使其更适合在边缘设备上部署。同时,为了在保证性能的前提下,实现更高的稀疏度,论文提出了一种谐波退火稀疏度调度器。这种调度器能够更有效地探索稀疏模型的空间,找到性能更优的稀疏模型。

技术框架:该框架基于独立的actor全局critic范式,每个智能体都有一个独立的actor网络,所有智能体共享一个全局critic网络。训练过程中,首先使用标准的MADRL算法训练模型,然后逐步对actor网络进行剪枝。剪枝过程由谐波退火稀疏度调度器控制,该调度器决定了每一轮剪枝的稀疏度目标。剪枝后的模型会进行微调,以恢复性能。

关键创新:论文的关键创新在于提出了谐波退火稀疏度调度器。与传统的线性或多项式剪枝调度器相比,谐波退火调度器能够更有效地探索稀疏模型的空间,找到性能更优的稀疏模型。这种调度器允许在训练初期进行更激进的剪枝,而在训练后期进行更保守的剪枝,从而在保证性能的同时,实现更高的稀疏度。

关键设计:谐波退火稀疏度调度器的关键参数包括初始稀疏度、最终稀疏度和退火周期。损失函数包括标准的强化学习损失函数和稀疏性正则化项。网络结构采用循环神经网络(RNN),以处理时序数据。具体参数设置和网络结构的选择需要根据具体的DSA场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的DSA框架在不同的训练条件下,能够发现优于传统DSA、MADRL基线和最先进剪枝技术的策略。特别是在高稀疏度下,谐波退火稀疏度调度器能够实现与标准线性和多项式剪枝调度器相当,甚至更优的性能。具体性能提升幅度未知,但论文强调了其在不同训练条件下的鲁棒性。

🎯 应用场景

该研究成果可应用于各种需要动态频谱接入的场景,例如无线通信网络、认知无线电系统等。通过降低MADRL模型的计算复杂度,使其能够在资源受限的边缘设备上部署,可以实现更智能、更高效的频谱资源管理,提高频谱利用率,改善用户体验。未来,该方法还可以推广到其他需要分散决策的复杂系统中。

📄 摘要(原文)

Multi-Agent Deep Reinforcement Learning (MADRL) has emerged as a powerful tool for optimizing decentralized decision-making systems in complex settings, such as Dynamic Spectrum Access (DSA). However, deploying deep learning models on resource-constrained edge devices remains challenging due to their high computational cost. To address this challenge, in this paper, we present a novel sparse recurrent MARL framework integrating gradual neural network pruning into the independent actor global critic paradigm. Additionally, we introduce a harmonic annealing sparsity scheduler, which achieves comparable, and in certain cases superior, performance to standard linear and polynomial pruning schedulers at large sparsities. Our experimental investigation demonstrates that the proposed DSA framework can discover superior policies, under diverse training conditions, outperforming conventional DSA, MADRL baselines, and state-of-the-art pruning techniques.