HESSO: Towards Automatic Efficient and User Friendly Any Neural Network Training and Pruning
作者: Tianyi Chen, Xiaoyi Qu, David Aponte, Colby Banbury, Jongwoo Ko, Tianyu Ding, Yong Ma, Vladimir Lyapunov, Ilya Zharkov, Luming Liang
分类: cs.LG, cs.CV, eess.IV
发布日期: 2024-09-11 (更新: 2025-05-08)
备注: 19 pages, 6 figures
💡 一句话要点
提出HESSO:一种自动、高效、用户友好的神经网络训练与剪枝方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 结构化剪枝 神经网络压缩 稀疏优化 自动训练 深度学习 模型优化 HESSO CRIC
📋 核心要点
- 现有结构化剪枝方法流程繁琐,依赖人工经验,且内置稀疏优化器存在超参数调优和稀疏性控制的局限性。
- HESSO通过混合高效结构化稀疏优化器,自动训练DNN生成高性能子网络,无需过多调优,易于集成。
- HESSO结合CRIC纠正性冗余识别循环,能有效防止剪枝过程中的性能崩溃,并在多种应用中表现出优越性能。
📝 摘要(中文)
结构化剪枝是压缩深度神经网络(DNNs)的有效方法之一,它能在保持性能的同时将庞大的网络压缩为紧凑的子网络。然而,现有方法通常需要多阶段流程,并涉及大量的工程工作和人工经验。最近提出的Only-Train-Once (OTO)系列通过自动执行(i)搜索空间生成,(ii)结构化稀疏优化,和(iii)子网络构建来简化工作流程,从而解决了许多痛点。但是,OTO系列中内置的稀疏优化器,即半空间投影梯度(HSPG)系列,存在需要超参数调整和隐式控制稀疏性探索的局限性,因此需要人工干预。为了解决这些限制,我们提出了一种混合高效结构化稀疏优化器(HESSO)。HESSO可以自动高效地训练DNN,以生成高性能的子网络。同时,它几乎不需要调优,并且可以方便地集成到通用训练应用中。为了解决剪枝DNN中常见的不可逆性能崩溃问题,我们进一步提出了一个纠正性冗余识别循环(CRIC),用于可靠地识别不可或缺的结构。我们通过数值实验证明了HESSO及其增强版本HESSO-CRIC在从计算机视觉到自然语言处理等各种应用中的有效性,包括大型语言模型。数值结果表明,HESSO可以实现与各种最先进方法竞争甚至更优越的性能,并支持大多数DNN架构。同时,CRIC可以有效地防止不可逆的性能崩溃,并进一步提高HESSO在某些应用上的性能。
🔬 方法详解
问题定义:现有结构化剪枝方法需要多阶段流程,涉及大量人工干预和超参数调优,尤其是在稀疏优化器的使用上。OTO系列虽然简化了流程,但其内置的HSPG优化器仍然存在局限性,需要人工控制稀疏性探索,并且容易出现不可逆的性能崩溃。
核心思路:HESSO的核心思路是设计一种混合高效的结构化稀疏优化器,能够自动地训练DNN,生成高性能的子网络,同时减少人工干预和超参数调优的需求。此外,通过CRIC循环,可靠地识别并保留对性能至关重要的结构,防止性能崩溃。
技术框架:HESSO主要包含两个核心组件:HESSO优化器和CRIC循环。HESSO优化器负责在训练过程中自动进行结构化稀疏优化,寻找最佳的子网络结构。CRIC循环则是在剪枝过程中,通过迭代地识别和纠正冗余结构,来防止性能的不可逆下降。整个流程旨在实现自动、高效且用户友好的神经网络剪枝。
关键创新:HESSO的关键创新在于其混合高效的结构化稀疏优化器,它能够自动地进行稀疏优化,无需过多的人工干预。此外,CRIC循环的引入,使得剪枝过程更加稳定可靠,能够有效地防止性能崩溃。与传统的剪枝方法相比,HESSO更加自动化、高效且易于使用。
关键设计:HESSO优化器的具体实现细节未知,但可以推测其采用了某种混合策略,结合了不同优化算法的优点,以实现高效的稀疏优化。CRIC循环的关键在于如何定义和识别冗余结构,以及如何进行纠正。具体的参数设置、损失函数和网络结构等细节在论文中可能有所描述,但此处无法得知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HESSO在多种应用中取得了与最先进方法竞争甚至更优越的性能,并且支持大多数DNN架构。CRIC循环能够有效防止不可逆的性能崩溃,并进一步提高HESSO在某些应用上的性能。具体的性能数据和提升幅度需要在论文中查找。
🎯 应用场景
HESSO具有广泛的应用前景,可用于各种深度学习模型的压缩和加速,尤其是在资源受限的设备上,如移动设备、嵌入式系统等。通过减小模型大小和计算复杂度,HESSO可以提高模型的部署效率和推理速度,从而更好地服务于实际应用,例如移动端的图像识别、自然语言处理等。
📄 摘要(原文)
Structured pruning is one of the most popular approaches to effectively compress the heavy deep neural networks (DNNs) into compact sub-networks while retaining performance. The existing methods suffer from multi-stage procedures along with significant engineering efforts and human expertise. The Only-Train-Once (OTO) series has been recently proposed to resolve the many pain points by streamlining the workflow by automatically conducting (i) search space generation, (ii) structured sparse optimization, and (iii) sub-network construction. However, the built-in sparse optimizers in the OTO series, i.e., the Half-Space Projected Gradient (HSPG) family, have limitations that require hyper-parameter tuning and the implicit controls of the sparsity exploration, consequently requires intervening by human expertise. To address such limitations, we propose a Hybrid Efficient Structured Sparse Optimizer (HESSO). HESSO could automatically and efficiently train a DNN to produce a high-performing subnetwork. Meanwhile, it is almost tuning-free and enjoys user-friendly integration for generic training applications. To address another common issue of irreversible performance collapse observed in pruning DNNs, we further propose a Corrective Redundant Identification Cycle (CRIC) for reliably identifying indispensable structures. We numerically demonstrate the efficacy of HESSO and its enhanced version HESSO-CRIC on a variety of applications ranging from computer vision to natural language processing, including large language model. The numerical results showcase that HESSO can achieve competitive even superior performance to varying state-of-the-arts and support most DNN architectures. Meanwhile, CRIC can effectively prevent the irreversible performance collapse and further enhance the performance of HESSO on certain applications.