CRePE: Convolution-aware Relative Importance in Post-training Pruning with Efficient Search
作者: Cheonjun Park
分类: cs.LG
发布日期: 2026-06-01
备注: 10 pages
💡 一句话要点
CRePE:利用卷积感知相对重要性和高效搜索进行后训练剪枝
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 后训练剪枝 大语言模型 模型压缩 卷积神经网络 超参数优化
📋 核心要点
- 现有后训练剪枝方法如RIA仅考虑一维行列信息,且行列权重相同,忽略了局部上下文。
- CRePE通过引入2D卷积感知和自适应系数,更准确地评估权重的重要性,提升剪枝效果。
- PHO代理优化方法显著降低了超参数搜索时间,且优化后的参数具有良好的泛化能力。
📝 摘要(中文)
在大语言模型(LLMs)的实际部署中,会产生大量的内存和计算成本。后训练剪枝(PTP)是一种有效的降低这些成本的方法,它通过移除权重而无需额外的训练。在现有方法中,RIA引入了由行和列总和归一化的相对重要性得分,实现了最先进的精度。然而,RIA仅考虑了1D十字形(行/列)方向信息,并为行和列的贡献分配了相等的权重。在本文中,我们提出了CRePE,它将2D局部邻域上下文和自适应系数纳入相对重要性评分中。CRePE在不同的模型和稀疏性设置下始终优于现有的PTP方法。然而,通过基于困惑度(PPL)的爬山法来识别最佳自适应系数需要大量的PPL评估,并且大约需要11小时的搜索时间。为了解决这个问题,我们提出了PHO(基于代理的超参数优化),它消除了重复PPL测量的需要,并将搜索时间减少到大约20分钟。此外,PHO在一个模型上找到的最佳超参数配置可以很好地转移到其他模型,表现出很强的泛化能力。最后,我们验证了CRePE可以与包括通道置换、非均匀稀疏性分配和重新剪枝方法在内的现有技术正交结合。
🔬 方法详解
问题定义:论文旨在解决大语言模型部署时内存和计算成本过高的问题,通过后训练剪枝(PTP)减少模型大小。现有方法,特别是RIA,在评估权重重要性时存在局限性,仅考虑一维行列信息,忽略了局部上下文,并且对行列贡献赋予相同的权重,这可能导致次优的剪枝效果。
核心思路:论文的核心思路是引入2D卷积感知和自适应系数来更准确地评估权重的重要性。通过考虑局部邻域上下文,CRePE能够捕捉到更丰富的权重关系,而自适应系数则允许模型根据不同层的特性调整行列贡献的权重,从而实现更精细化的剪枝。
技术框架:CRePE方法主要包含以下几个阶段:1) 计算权重矩阵的相对重要性得分,该得分基于2D卷积操作,考虑了局部邻域上下文;2) 使用自适应系数调整行列贡献的权重;3) 根据计算出的重要性得分进行剪枝;4) 使用PHO(Proxy-based Hyperparameter Optimization)优化自适应系数,无需重复进行PPL评估。
关键创新:论文的关键创新在于:1) 提出了CRePE,一种基于2D卷积感知的相对重要性评估方法,能够更准确地捕捉权重的重要性;2) 引入了自适应系数,允许模型根据不同层的特性调整行列贡献的权重;3) 提出了PHO,一种高效的超参数优化方法,显著降低了搜索时间,并具有良好的泛化能力。与现有方法相比,CRePE不仅考虑了局部上下文,还允许自适应地调整行列贡献,从而实现了更精细化的剪枝。
关键设计:CRePE的关键设计包括:1) 使用卷积核大小为3x3的卷积操作来捕捉局部邻域上下文;2) 使用可学习的自适应系数来调整行列贡献的权重,这些系数通过PHO进行优化;3) PHO使用代理模型来预测不同超参数配置下的性能,从而避免了重复进行PPL评估,显著降低了搜索时间。损失函数未知。
🖼️ 关键图片
📊 实验亮点
CRePE在多种模型和稀疏度设置下均优于现有PTP方法。PHO将超参数搜索时间从11小时缩短到20分钟,且优化后的超参数具有良好的泛化能力。实验结果表明,CRePE可以与通道置换、非均匀稀疏性分配和重新剪枝等现有技术结合使用,进一步提升性能。具体性能数据未知。
🎯 应用场景
CRePE方法可广泛应用于大语言模型的压缩和加速,尤其适用于资源受限的边缘设备或移动设备。通过降低模型大小和计算复杂度,CRePE能够使LLM在这些设备上更高效地运行,从而推动LLM在实际应用中的普及。该方法还可用于优化云端部署的LLM,降低推理成本。
📄 摘要(原文)
Deploying Large Language Models (LLMs) in practice incurs substantial memory and computational costs. Post-training pruning (PTP) is an effective approach to reducing these costs by removing weights without additional training. Among existing methods, RIA introduces relative importance scores normalized by row and column sums, achieving state-of-the-art accuracy. However, RIA considers only 1D cross-shaped (row/column) directional information and assigns equal weight to row and column contributions. In this paper, we propose \textbf{CRePE}, which incorporates 2D local neighborhood context and adaptive coefficients into Relative Importance scoring. CRePE consistently outperforms existing PTP methods across diverse models and sparsity settings. However, identifying optimal adaptive coefficients via perplexity (PPL)-based hill climbing requires numerous PPL evaluations and approximately 11 hours of search time. To address this, we propose \textbf{PHO} (Proxy-based Hyperparameter Optimization), which eliminates the need for repeated PPL measurements and reduces the search time to approximately 20 minutes. Furthermore, the optimal hyperparameter configuration found by PHO on one model transfers well to other models, demonstrating strong generalization. Finally, we verify that CRePE can be orthogonally combined with existing techniques including Channel Permutation, non-uniform sparsity allocation, and re-pruning methods.