Lightweight and Post-Training Structured Pruning for On-Device Large Lanaguage Models
作者: Zihuai Xu, Yang Xu, Hongli Xu, Yunming Liao, Zhiwei Yao, Zuan Xie
分类: cs.LG, cs.AI
发布日期: 2025-01-25
💡 一句话要点
提出COMP:一种轻量级的LLM后训练结构化剪枝方法,适用于端侧部署。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 结构化剪枝 后训练剪枝 大型语言模型 端侧部署 模型压缩
📋 核心要点
- 现有结构化剪枝方法需要微调,导致内存开销大和数据需求高,不适用于端侧LLM。
- COMP采用混合粒度剪枝策略,先粗粒度剪枝层,再细粒度剪枝神经元,无需微调。
- 实验表明,COMP在LLaMA-2-7B模型上,20%剪枝率下,性能优于LLM-Pruner,且内存开销更低。
📝 摘要(中文)
针对大型语言模型(LLM)在资源受限设备上的部署需求,结构化剪枝因其硬件友好性和广泛适用性而成为一种有效的资源缩减方案。然而,传统的结构化剪枝方法通常需要微调以恢复性能,这带来了高内存开销和大量数据需求,使其不适合端侧应用。此外,现有的后训练结构化剪枝技术通常需要特定的激活函数或架构修改,从而限制了其应用范围。本文提出COMP,一种轻量级的后训练结构化剪枝方法,它采用混合粒度的剪枝策略。COMP首先基于模型层的重要性进行粗粒度的剪枝,然后对每个剩余模型层的稠密层进行细粒度的神经元剪枝。为了更准确地评估神经元的重要性,COMP引入了一种新的基于矩阵条件的度量。随后,COMP利用掩码调整来恢复精度,而无需微调,从而显著降低了内存消耗。实验结果表明,与LLM-Pruner相比,COMP在LLaMA-2-7B模型上以20%的剪枝率提高了6.13%的性能,同时降低了80%的内存开销。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在资源受限设备上部署时,传统结构化剪枝方法需要微调带来的高内存开销和大数据依赖问题。现有后训练剪枝方法对模型结构或激活函数有特定要求,限制了其通用性。因此,需要一种轻量级、无需微调且适用性广的结构化剪枝方法。
核心思路:COMP的核心思路是采用混合粒度的后训练结构化剪枝策略,结合粗粒度的层剪枝和细粒度的神经元剪枝,以在保证模型性能的同时,显著降低计算和存储开销。通过引入基于矩阵条件的神经元重要性评估指标和掩码调整技术,避免了微调过程,从而降低了内存需求。
技术框架:COMP方法主要包含以下几个阶段: 1. 层重要性评估:评估模型中每一层的重要性,用于后续的粗粒度剪枝。 2. 粗粒度层剪枝:根据层重要性评估结果,移除不重要的层。 3. 神经元重要性评估:对剩余层的稠密层中的神经元进行重要性评估,使用基于矩阵条件的度量。 4. 细粒度神经元剪枝:根据神经元重要性评估结果,移除不重要的神经元。 5. 掩码调整:通过调整剪枝后的模型参数的掩码,恢复模型精度,无需微调。
关键创新:COMP的关键创新在于: 1. 混合粒度剪枝策略:结合了层级别的粗粒度剪枝和神经元级别的细粒度剪枝,更灵活地平衡了模型大小和性能。 2. 基于矩阵条件的神经元重要性度量:提出了一种新的神经元重要性评估方法,能够更准确地反映神经元对模型性能的影响。 3. 掩码调整技术:通过调整掩码来恢复精度,避免了微调过程,显著降低了内存开销。
关键设计: 1. 层重要性评估:具体评估方法未知,但其结果直接影响后续的层剪枝。 2. 神经元重要性度量:基于矩阵条件,具体公式未知,但旨在更准确地评估神经元的重要性。 3. 掩码调整:具体调整策略未知,但其目标是在不进行微调的情况下恢复模型精度。 4. 剪枝比例:实验中使用了20%的剪枝率,可能需要根据具体模型和任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,COMP在LLaMA-2-7B模型上,以20%的剪枝率,相比于LLM-Pruner,性能提升了6.13%,同时内存开销降低了80%。这表明COMP在保证模型性能的同时,显著降低了资源需求,使其更适合在端侧设备上部署。
🎯 应用场景
COMP方法适用于在资源受限的设备上部署大型语言模型,例如智能手机、嵌入式系统和边缘计算设备。通过降低模型的计算和存储需求,COMP使得这些设备能够运行更复杂的AI模型,从而实现更智能化的本地服务,例如离线翻译、语音助手和智能推荐。该方法还有助于降低云计算成本,并提高数据隐私性。
📄 摘要(原文)
Considering the hardware-friendly characteristics and broad applicability, structured pruning has emerged as an efficient solution to reduce the resource demands of large language models (LLMs) on resource-constrained devices. Traditional structured pruning methods often need fine-tuning to recover performance loss, which incurs high memory overhead and substantial data requirements, rendering them unsuitable for on-device applications. Additionally, post-training structured pruning techniques typically necessitate specific activation functions or architectural modifications, thereby limiting their scope of applications. Herein, we introduce COMP, a lightweight post-training structured pruning method that employs a hybrid-granularity pruning strategy. COMP initially prunes selected model layers based on their importance at a coarse granularity, followed by fine-grained neuron pruning within the dense layers of each remaining model layer. To more accurately evaluate neuron importance, COMP introduces a new matrix condition-based metric. Subsequently, COMP utilizes mask tuning to recover accuracy without the need for fine-tuning, significantly reducing memory consumption. Experimental results demonstrate that COMP improves performance by 6.13\% on the LLaMA-2-7B model with a 20\% pruning ratio compared to LLM-Pruner, while simultaneously reducing memory overhead by 80\%.