SimDiff: Depth Pruning via Similarity and Difference

作者: Yuli Chen, Shuhao Zhang, Fanshen Meng, Bo Cheng, Jiale Han, Qiang Tong, Xiulei Liu

分类: cs.AI

发布日期: 2026-04-21

💡 一句话要点

SimDiff：通过相似性和差异性进行深度剪枝，提升LLM部署效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 深度剪枝 大型语言模型 模型压缩 相似性度量 差异性度量 推理加速 模型优化

📋 核心要点

现有深度剪枝方法过度依赖层间相似性，导致性能不稳定，甚至出现灾难性崩溃。
SimDiff联合评估层的表征相似性和转换差异，从正交角度更全面地评估层的重要性。
实验表明，SimDiff在多种模型和剪枝比例下显著优于现有方法，并能有效加速推理。

📝 摘要（中文）

深度剪枝通过识别和移除冗余层来提高大型语言模型（LLM）的部署效率。目前广泛接受的标准是使用余弦距离来衡量层之间的相似性。然而，我们发现仅依赖于这种一维启发式方法会导致不可预测的性能，甚至在不同的架构中出现灾难性的崩溃。为了解决这个问题，我们提出SimDiff，一种新颖的层重要性准则，它从两个正交的角度联合评估层：表征相似性和转换差异。差异使用两个不同的指标来量化：MSSD，它对异常值敏感并识别进行决定性校正的层；以及MASD，它稳健地测量层的平均贡献。在从0.5B到13B参数的多个模型上进行的大量实验表明，SimDiff在各种剪枝比例下显著优于最先进的基线。值得注意的是，我们的方法在25%的剪枝比例下保留了超过91%的LLaMA2-7B的性能，并且在LLaMA3.1-8B上剪枝12层时实现了高达1.49倍的推理加速。我们还表明，剪枝后的模型可以通过最小的微调有效地恢复。

🔬 方法详解

问题定义：现有深度剪枝方法主要依赖层间相似性（通常使用余弦距离衡量）来识别冗余层。这种单一维度的评估方式无法准确反映层的重要性，导致剪枝后的模型性能不稳定，尤其是在不同架构的模型上，甚至可能出现性能灾难性下降。因此，需要一种更鲁棒、更全面的层重要性评估方法。

核心思路：SimDiff的核心思想是从两个正交的角度评估层的重要性：表征相似性和转换差异。相似性衡量层之间的信息冗余程度，而差异性则衡量层对模型输出的贡献。通过结合相似性和差异性，SimDiff能够更准确地识别和移除冗余层，从而在保持模型性能的同时提高部署效率。

技术框架：SimDiff方法主要包含以下几个步骤：1) 计算层之间的表征相似性；2) 计算层之间的转换差异，使用MSSD（Mean Squared Successive Difference）和MASD（Mean Absolute Successive Difference）两种指标；3) 结合相似性和差异性，计算每个层的重要性得分；4) 根据重要性得分对层进行排序，并移除重要性最低的层。

关键创新：SimDiff的关键创新在于提出了联合评估相似性和差异性的层重要性准则。与现有方法仅依赖相似性不同，SimDiff同时考虑了层之间的信息冗余程度和对模型输出的贡献。MSSD和MASD两种差异性度量方式分别关注异常值和平均贡献，能够更全面地捕捉层之间的差异。

关键设计：MSSD计算相邻层输出的均方差，对异常值敏感，可以识别进行关键校正的层。MASD计算相邻层输出的绝对差的平均值，对异常值不敏感，可以稳健地衡量层的平均贡献。SimDiff将相似性得分和差异性得分进行加权组合，得到最终的层重要性得分。具体的权重参数需要根据不同的模型和任务进行调整。

🖼️ 关键图片

📊 实验亮点

SimDiff在多个模型（0.5B-13B参数）上进行了广泛的实验，结果表明其显著优于现有最先进的基线方法。例如，在LLaMA2-7B模型上，使用25%的剪枝比例时，SimDiff能够保留超过91%的原始性能。在LLaMA3.1-8B模型上剪枝12层时，实现了高达1.49倍的推理加速。此外，剪枝后的模型可以通过最小的微调有效地恢复性能。

🎯 应用场景

SimDiff可应用于各种大型语言模型的深度剪枝，从而降低模型大小、减少计算资源消耗、提高推理速度，使其更易于部署在资源受限的设备上，例如移动设备、嵌入式系统等。该技术在自然语言处理、机器翻译、文本生成等领域具有广泛的应用前景，有助于推动AI技术在各行业的普及。

📄 摘要（原文）

Depth pruning improves the deployment efficiency of large language models (LLMs) by identifying and removing redundant layers. A widely accepted standard for this identification process is to measure the similarity between layers using cosine distance. However, we find that methods relying solely on this one-dimensional heuristic can exhibit unpredictable performance and even catastrophic collapse across different architectures. To address this issue, we propose SimDiff, a novel layer importance criterion that jointly evaluates layers from two orthogonal perspectives: representational similarity and transformation difference. The difference is quantified using two distinct metrics: MSSD, which is sensitive to outliers and identifies layers that make decisive corrections, and MASD, which robustly measures a layer's average contribution. Extensive experiments on multiple models ranging from 0.5B to 13B parameters demonstrate that SimDiff significantly outperforms state-of-the-art baselines across various pruning ratios. Notably, our method retains over 91% of LLaMA2-7B's performance at a 25% pruning ratio and achieves up to a 1.49x inference speedup when pruning 12 layers on LLaMA3.1-8B. We also show that pruned models can be effectively recovered with minimal fine-tuning.

SimDiff: Depth Pruning via Similarity and Difference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理