ACE: Exploring Activation Cosine Similarity and Variance for Accurate and Calibration-Efficient LLM Pruning

📄 arXiv: 2505.21987v1 📥 PDF

作者: Zhendong Mi, Zhenglun Kong, Geng Yuan, Shaoyi Huang

分类: cs.LG

发布日期: 2025-05-28

备注: 9 pages, 2 figures, 13 tables


💡 一句话要点

ACE:探索激活余弦相似性和方差,实现LLM精确高效的校准剪枝

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型剪枝 激活余弦相似度 激活方差 模型压缩 高效剪枝

📋 核心要点

  1. 现有LLM剪枝方法在性能和效率上存在瓶颈,难以兼顾高精度和快速剪枝。
  2. 提出基于激活余弦相似度和方差的剪枝指标,旨在保留剪枝前后模型输出激活的语义信息。
  3. 实验表明,该方法在LLaMA等模型上显著降低了困惑度,并大幅缩短了剪枝时间。

📝 摘要(中文)

随着大型语言模型(LLMs)的快速发展,对内存和计算资源的需求显著增长。LLM剪枝的最新进展旨在减少这些模型的大小和计算成本。然而,现有方法通常存在剪枝性能欠佳或剪枝过程时间效率低下的问题。本文提出了一种高效且有效的剪枝方法,该方法在提高校准效率的同时,实现了高剪枝性能和快速剪枝速度。我们的方法引入了两项关键创新:(1)一种激活余弦相似度损失引导的剪枝指标,它考虑了密集模型和剪枝模型之间输出激活的角偏差。(2)一种激活方差引导的剪枝指标,它有助于保持剪枝后输出激活中的语义区别,从而能够使用更短的输入序列进行有效剪枝。这两个组件可以很容易地结合起来,以提高LLM剪枝的准确性和效率。实验结果表明,我们的方法在流行的LLM(如LLaMA、LLaMA-2和OPT)上实现了高达18%的困惑度降低和高达63%的剪枝时间减少。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)剪枝过程中,现有方法无法同时保证高剪枝性能和高剪枝效率的问题。现有方法要么剪枝效果不佳,导致模型性能下降明显;要么剪枝过程耗时过长,难以应用到实际场景中。

核心思路:论文的核心思路是,通过衡量剪枝前后模型输出激活的相似度和差异性,来指导剪枝过程。具体来说,利用激活余弦相似度来保证剪枝后模型输出与原始模型尽可能接近,利用激活方差来保留模型输出的语义区分能力。这样可以在保证模型性能的同时,提高剪枝效率。

技术框架:该方法主要包含两个核心模块:激活余弦相似度损失计算模块和激活方差计算模块。首先,计算密集模型和剪枝模型在特定输入下的激活值。然后,计算两个模型激活值的余弦相似度,并将其作为损失函数的一部分,引导剪枝过程。同时,计算密集模型激活值的方差,并将其作为另一个剪枝指标,用于保留模型输出的语义区分能力。最后,将这两个指标结合起来,指导模型的剪枝过程。

关键创新:论文的关键创新在于提出了激活余弦相似度和激活方差这两个剪枝指标。激活余弦相似度能够有效地衡量剪枝前后模型输出的相似程度,从而保证剪枝后的模型性能。激活方差能够保留模型输出的语义区分能力,使得模型在剪枝后仍然能够有效地处理各种输入。与现有方法相比,该方法能够更好地平衡剪枝性能和剪枝效率。

关键设计:激活余弦相似度损失定义为密集模型和剪枝模型对应层输出激活向量的余弦相似度的负值。激活方差计算为每个神经元在不同输入下的激活值方差的平均值。在剪枝过程中,选择激活余弦相似度损失较大且激活方差较小的神经元进行剪枝。具体剪枝比例根据实际需求进行调整。损失函数由激活余弦相似度损失和正则化项组成,用于控制剪枝的稀疏性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在LLaMA、LLaMA-2和OPT等流行的LLM上取得了显著的性能提升。具体来说,该方法能够实现高达18%的困惑度降低,同时将剪枝时间减少高达63%。这些结果表明,该方法在提高LLM剪枝的准确性和效率方面具有显著优势。

🎯 应用场景

该研究成果可应用于各种需要部署大型语言模型的场景,例如移动设备、边缘计算设备等。通过剪枝,可以显著降低模型的大小和计算复杂度,从而使得LLM能够在资源受限的设备上运行。此外,该方法还可以用于加速LLM的推理速度,提高用户体验。未来,该方法有望推广到其他类型的深度学习模型中。

📄 摘要(原文)

With the rapid expansion of large language models (LLMs), the demand for memory and computational resources has grown significantly. Recent advances in LLM pruning aim to reduce the size and computational cost of these models. However, existing methods often suffer from either suboptimal pruning performance or low time efficiency during the pruning process. In this work, we propose an efficient and effective pruning method that simultaneously achieves high pruning performance and fast pruning speed with improved calibration efficiency. Our approach introduces two key innovations: (1) An activation cosine similarity loss-guided pruning metric, which considers the angular deviation of the output activation between the dense and pruned models. (2) An activation variance-guided pruning metric, which helps preserve semantic distinctions in output activations after pruning, enabling effective pruning with shorter input sequences. These two components can be readily combined to enhance LLM pruning in both accuracy and efficiency. Experimental results show that our method achieves up to an 18% reduction in perplexity and up to 63% decrease in pruning time on prevalent LLMs such as LLaMA, LLaMA-2, and OPT.