Online Training and Pruning of Deep Reinforcement Learning Networks

📄 arXiv: 2507.11975v1 📥 PDF

作者: Valentin Frank Ingmar Guenter, Athanasios Sideris

分类: cs.LG, cs.AI, cs.RO

发布日期: 2025-07-16

备注: 25 pages, 5 figures, 4 tables


💡 一句话要点

提出XiNet,通过在线训练和剪枝深度强化学习网络,提升效率并保持性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 网络剪枝 在线学习 深度神经网络 模型压缩

📋 核心要点

  1. 深度强化学习网络规模的扩大提升了性能,但也显著增加了计算和内存的复杂度,现有剪枝方法在RL中的应用不足。
  2. 提出XiNet,通过联合训练和剪枝,利用变分伯努利分布参数控制网络单元的激活,并引入成本感知的正则化方案。
  3. 在MuJoCo连续控制任务上,XiNet在Soft Actor-Critic智能体中实现了显著的网络剪枝,同时保持了性能,优于从小网络训练。

📝 摘要(中文)

本文提出了一种在强化学习(RL)算法中集成同步训练和剪枝的方法,特别是在由在线特征提取网络(OFENet)增强的RL算法中。提出的网络(XiNet)通过训练来解决RL网络权重和变分伯努利分布参数的随机优化问题,这些参数用于缩放网络中的每个单元。这种随机问题公式引入了正则化项,当一个单元对性能贡献很小时,会促使变分参数收敛到0。在这种情况下,相应的结构将被永久停用并从网络中剪枝。提出了一种成本感知的、促进稀疏性的正则化方案,该方案针对OFENet的DenseNet架构,用网络中随机变量的参数来表示相关网络的参数复杂度。通过将此成本与正则化项匹配,可以自动选择与其相关的许多超参数,从而有效地结合RL目标和网络压缩。在连续控制基准(MuJoCo)和Soft Actor-Critic RL智能体上评估了该方法,结果表明OFENet可以在性能损失最小的情况下被大量剪枝。此外,结果证实,在训练期间剪枝大型网络比从头开始训练较小的网络能产生更高效和更高性能的RL智能体。

🔬 方法详解

问题定义:论文旨在解决深度强化学习中,大型神经网络带来的计算和内存开销问题。现有神经网络剪枝方法在监督学习中取得了成功,但在强化学习中的应用还不够充分。直接训练小规模网络可能无法达到大型网络的性能。

核心思路:论文的核心思路是在训练过程中同时进行网络剪枝,通过引入变分伯努利分布来控制网络中每个单元的激活状态。通过优化这些分布的参数,可以自动识别并移除对性能贡献较小的单元,从而实现网络的稀疏化。

技术框架:整体框架包括以下几个主要步骤:1) 构建基于OFENet的深度强化学习网络;2) 为网络的每个单元引入一个变分伯努利随机变量,用于控制该单元的激活状态;3) 构建包含RL目标和稀疏性正则化项的损失函数;4) 使用随机优化算法同时训练网络权重和变分参数;5) 根据变分参数的值,永久移除不重要的单元。

关键创新:最重要的创新点在于提出了一种成本感知的稀疏性促进正则化方案,该方案能够根据网络的参数复杂度自动选择合适的超参数。这种方法避免了手动调整大量超参数的麻烦,并能够有效地结合RL目标和网络压缩。

关键设计:论文针对OFENet的DenseNet架构,设计了一种特殊的正则化项,该正则化项将网络的参数复杂度表示为变分随机变量的参数。损失函数包括RL目标(例如Soft Actor-Critic的损失函数)和稀疏性正则化项。稀疏性正则化项鼓励变分参数收敛到0,从而实现网络剪枝。论文还提出了一种自动选择正则化系数的方法,该方法基于网络的参数复杂度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在MuJoCo连续控制任务中,使用XiNet对OFENet进行剪枝,可以在性能损失很小的情况下,显著减少网络的参数数量。例如,在某些任务中,网络可以被剪枝到只剩下原始大小的一小部分,而性能几乎没有下降。此外,实验还表明,通过在训练过程中剪枝大型网络,可以获得比从头开始训练小型网络更好的性能。

🎯 应用场景

该研究成果可应用于各种需要高效强化学习的场景,例如机器人控制、自动驾驶、资源调度等。通过降低深度强化学习模型的计算和内存需求,可以使其更容易部署在资源受限的设备上,并加速强化学习算法的训练过程。未来的研究可以探索将该方法应用于更复杂的强化学习任务和网络结构。

📄 摘要(原文)

Scaling deep neural networks (NN) of reinforcement learning (RL) algorithms has been shown to enhance performance when feature extraction networks are used but the gained performance comes at the significant expense of increased computational and memory complexity. Neural network pruning methods have successfully addressed this challenge in supervised learning. However, their application to RL is underexplored. We propose an approach to integrate simultaneous training and pruning within advanced RL methods, in particular to RL algorithms enhanced by the Online Feature Extractor Network (OFENet). Our networks (XiNet) are trained to solve stochastic optimization problems over the RL networks' weights and the parameters of variational Bernoulli distributions for 0/1 Random Variables $ξ$ scaling each unit in the networks. The stochastic problem formulation induces regularization terms that promote convergence of the variational parameters to 0 when a unit contributes little to the performance. In this case, the corresponding structure is rendered permanently inactive and pruned from its network. We propose a cost-aware, sparsity-promoting regularization scheme, tailored to the DenseNet architecture of OFENets expressing the parameter complexity of involved networks in terms of the parameters of the RVs in these networks. Then, when matching this cost with the regularization terms, the many hyperparameters associated with them are automatically selected, effectively combining the RL objectives and network compression. We evaluate our method on continuous control benchmarks (MuJoCo) and the Soft Actor-Critic RL agent, demonstrating that OFENets can be pruned considerably with minimal loss in performance. Furthermore, our results confirm that pruning large networks during training produces more efficient and higher performing RL agents rather than training smaller networks from scratch.