Pruning Convolutional Filters via Reinforcement Learning with Entropy Minimization

📄 arXiv: 2312.04918v1 📥 PDF

作者: Bogdan Musat, Razvan Andonie

分类: cs.LG

发布日期: 2023-12-08


💡 一句话要点

提出基于熵最小化的强化学习卷积滤波器剪枝方法,实现高效网络部署。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 结构化剪枝 强化学习 熵最小化 卷积神经网络 模型压缩

📋 核心要点

  1. 现有结构化剪枝方法通常直接优化网络精度,计算成本高昂且可能陷入局部最优。
  2. 本文提出基于信息论的奖励函数,通过最小化卷积激活的空间熵间接保持网络精度。
  3. 实验表明,该方法在显著降低FLOPS的同时,保持了与直接优化精度相当的性能。

📝 摘要(中文)

结构化剪枝已成为神经网络优化的重要组成部分,用于获得可在嵌入式设备上更高效地部署和运行的架构配置。以往的研究表明,通过使用强化学习智能体来决定每个神经层的稀疏度,并以网络准确性作为奖励最大化目标,可以实现性能损失最小的剪枝。本文提出了一种新的信息论奖励函数,该函数旨在最小化卷积激活的空间熵。这种最小化最终可以作为保持准确性的代理,尽管这两个标准没有任何关联。实验表明,无需直接在智能体的奖励函数中优化准确性,也有可能保持准确性。实验结果表明,该方法能够在多个流行的神经网络架构上减少5-10倍的FLOPS,且性能下降极小或没有下降,与最大化准确性所找到的解决方案相当。

🔬 方法详解

问题定义:论文旨在解决神经网络结构化剪枝问题,目标是在保证模型性能的前提下,减少模型的计算复杂度,使其更适合在资源受限的嵌入式设备上部署。现有方法通常以网络精度作为强化学习的直接奖励,计算量大,且优化过程可能不稳定。

核心思路:论文的核心思路是利用信息论中的熵的概念,通过最小化卷积激活的空间熵来间接保持网络的精度。作者认为,降低激活的空间熵可以促使网络学习到更紧凑、更具代表性的特征,从而在剪枝过程中更好地保留关键信息。

技术框架:整体框架包括一个强化学习智能体和一个待剪枝的卷积神经网络。智能体负责为每一层卷积层选择合适的剪枝比例,然后根据剪枝后的网络在验证集上的表现计算奖励。与传统方法不同,这里的奖励函数不是直接基于精度,而是基于卷积激活的空间熵。智能体通过不断与环境交互,学习到最优的剪枝策略。

关键创新:最重要的创新点在于使用熵最小化作为剪枝的代理目标。与直接优化精度相比,熵最小化计算效率更高,且能够避免陷入局部最优。此外,这种方法不需要显式地将精度作为奖励,而是通过信息论的视角来引导剪枝过程。

关键设计:关键设计包括:1) 空间熵的计算方式,作者需要定义如何从卷积激活中提取特征并计算熵;2) 强化学习智能体的网络结构和训练方式,包括状态表示、动作空间、奖励函数的设计;3) 剪枝比例的选择策略,如何平衡不同层之间的剪枝比例,以达到最佳的性能和计算复杂度trade-off。

📊 实验亮点

实验结果表明,该方法能够在多个流行的神经网络架构(具体架构未知)上减少5-10倍的FLOPS,且性能下降极小或没有下降。与直接最大化准确性的方法相比,该方法在性能上与之相当,但计算效率更高。这些结果验证了使用熵最小化作为剪枝代理目标的有效性。

🎯 应用场景

该研究成果可应用于各种需要轻量化神经网络模型的场景,例如移动设备上的图像识别、自动驾驶中的目标检测、以及物联网设备上的边缘计算等。通过降低模型的计算复杂度,可以显著提高模型的推理速度和能效,使其更适合在资源受限的环境中部署和应用。未来的研究可以探索将该方法应用于更复杂的网络结构和任务中。

📄 摘要(原文)

Structural pruning has become an integral part of neural network optimization, used to achieve architectural configurations which can be deployed and run more efficiently on embedded devices. Previous results showed that pruning is possible with minimum performance loss by utilizing a reinforcement learning agent which makes decisions about the sparsity level of each neural layer by maximizing as a reward the accuracy of the network. We introduce a novel information-theoretic reward function which minimizes the spatial entropy of convolutional activations. This minimization ultimately acts as a proxy for maintaining accuracy, although these two criteria are not related in any way. Our method shows that there is another possibility to preserve accuracy without the need to directly optimize it in the agent's reward function. In our experiments, we were able to reduce the total number of FLOPS of multiple popular neural network architectures by 5-10x, incurring minimal or no performance drop and being on par with the solution found by maximizing the accuracy.