SimDiff: Depth Pruning via Similarity and Difference
作者: Yuli Chen, Shuhao Zhang, Fanshen Meng, Bo Cheng, Jiale Han, Qiang Tong, Xiulei Liu
分类: cs.AI
发布日期: 2026-04-21
💡 一句话要点
SimDiff:通过相似性和差异性进行深度剪枝,提升LLM部署效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 深度剪枝 大型语言模型 模型压缩 相似性度量 差异性度量 推理加速 模型优化
📋 核心要点
- 现有深度剪枝方法过度依赖层间相似性,导致性能不稳定,甚至出现灾难性崩溃。
- SimDiff联合评估层的表征相似性和转换差异,从正交角度更全面地评估层的重要性。
- 实验表明,SimDiff在多种模型和剪枝比例下显著优于现有方法,并能有效加速推理。
📝 摘要(中文)
深度剪枝通过识别和移除冗余层来提高大型语言模型(LLM)的部署效率。目前广泛接受的标准是使用余弦距离来衡量层之间的相似性。然而,我们发现仅依赖于这种一维启发式方法会导致不可预测的性能,甚至在不同的架构中出现灾难性的崩溃。为了解决这个问题,我们提出SimDiff,一种新颖的层重要性准则,它从两个正交的角度联合评估层:表征相似性和转换差异。差异使用两个不同的指标来量化:MSSD,它对异常值敏感并识别进行决定性校正的层;以及MASD,它稳健地测量层的平均贡献。在从0.5B到13B参数的多个模型上进行的大量实验表明,SimDiff在各种剪枝比例下显著优于最先进的基线。值得注意的是,我们的方法在25%的剪枝比例下保留了超过91%的LLaMA2-7B的性能,并且在LLaMA3.1-8B上剪枝12层时实现了高达1.49倍的推理加速。我们还表明,剪枝后的模型可以通过最小的微调有效地恢复。
🔬 方法详解
问题定义:现有深度剪枝方法主要依赖层间相似性(通常使用余弦距离衡量)来识别冗余层。这种单一维度的评估方式无法准确反映层的重要性,导致剪枝后的模型性能不稳定,尤其是在不同架构的模型上,甚至可能出现性能灾难性下降。因此,需要一种更鲁棒、更全面的层重要性评估方法。
核心思路:SimDiff的核心思想是从两个正交的角度评估层的重要性:表征相似性和转换差异。相似性衡量层之间的信息冗余程度,而差异性则衡量层对模型输出的贡献。通过结合相似性和差异性,SimDiff能够更准确地识别和移除冗余层,从而在保持模型性能的同时提高部署效率。
技术框架:SimDiff方法主要包含以下几个步骤:1) 计算层之间的表征相似性;2) 计算层之间的转换差异,使用MSSD(Mean Squared Successive Difference)和MASD(Mean Absolute Successive Difference)两种指标;3) 结合相似性和差异性,计算每个层的重要性得分;4) 根据重要性得分对层进行排序,并移除重要性最低的层。
关键创新:SimDiff的关键创新在于提出了联合评估相似性和差异性的层重要性准则。与现有方法仅依赖相似性不同,SimDiff同时考虑了层之间的信息冗余程度和对模型输出的贡献。MSSD和MASD两种差异性度量方式分别关注异常值和平均贡献,能够更全面地捕捉层之间的差异。
关键设计:MSSD计算相邻层输出的均方差,对异常值敏感,可以识别进行关键校正的层。MASD计算相邻层输出的绝对差的平均值,对异常值不敏感,可以稳健地衡量层的平均贡献。SimDiff将相似性得分和差异性得分进行加权组合,得到最终的层重要性得分。具体的权重参数需要根据不同的模型和任务进行调整。
🖼️ 关键图片
📊 实验亮点
SimDiff在多个模型(0.5B-13B参数)上进行了广泛的实验,结果表明其显著优于现有最先进的基线方法。例如,在LLaMA2-7B模型上,使用25%的剪枝比例时,SimDiff能够保留超过91%的原始性能。在LLaMA3.1-8B模型上剪枝12层时,实现了高达1.49倍的推理加速。此外,剪枝后的模型可以通过最小的微调有效地恢复性能。
🎯 应用场景
SimDiff可应用于各种大型语言模型的深度剪枝,从而降低模型大小、减少计算资源消耗、提高推理速度,使其更易于部署在资源受限的设备上,例如移动设备、嵌入式系统等。该技术在自然语言处理、机器翻译、文本生成等领域具有广泛的应用前景,有助于推动AI技术在各行业的普及。
📄 摘要(原文)
Depth pruning improves the deployment efficiency of large language models (LLMs) by identifying and removing redundant layers. A widely accepted standard for this identification process is to measure the similarity between layers using cosine distance. However, we find that methods relying solely on this one-dimensional heuristic can exhibit unpredictable performance and even catastrophic collapse across different architectures. To address this issue, we propose SimDiff, a novel layer importance criterion that jointly evaluates layers from two orthogonal perspectives: representational similarity and transformation difference. The difference is quantified using two distinct metrics: MSSD, which is sensitive to outliers and identifies layers that make decisive corrections, and MASD, which robustly measures a layer's average contribution. Extensive experiments on multiple models ranging from 0.5B to 13B parameters demonstrate that SimDiff significantly outperforms state-of-the-art baselines across various pruning ratios. Notably, our method retains over 91% of LLaMA2-7B's performance at a 25% pruning ratio and achieves up to a 1.49x inference speedup when pruning 12 layers on LLaMA3.1-8B. We also show that pruned models can be effectively recovered with minimal fine-tuning.