Understanding Performance Collapse in Layer-Pruned Large Language Models via Decision Representation Transitions

📄 arXiv: 2605.07271v1 📥 PDF

作者: Boyu Shi, Chang Liu, ChuanBao Gao, Xu Yang, Xin Geng

分类: cs.CL, cs.AI

发布日期: 2026-05-08


💡 一句话要点

提出基于决策表示转换的分析框架,揭示大语言模型层剪枝导致性能崩溃的内在机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型剪枝 模型压缩 决策表示 模型可解释性 推理动态分析

📋 核心要点

  1. 现有基于表示的分析方法难以解释层剪枝为何会导致LLM性能突发性崩溃,缺乏对模型内部决策动态的深入理解。
  2. 论文引入决策边界与选项频率指标,通过迭代剪枝法揭示了模型从静默阶段到决定性阶段的决策转换机制。
  3. 实验证实静默阶段对结构变化高度敏感,剪枝该阶段是导致性能崩溃的根源,为模型压缩提供了理论指导。

📝 摘要(中文)

层剪枝是降低大语言模型(LLM)计算成本的有效手段,但往往会引发突发性的性能崩溃。现有的基于表示的分析方法难以解释这一机制。本文提出通过“决策表示”(Decision Representation)视角研究剪枝问题。针对多项选择任务,我们引入了“决策边界”(Decision Margin)和“选项频率”(Option Frequency)两个指标,并采用迭代剪枝法分析逐层的决策动态。研究发现,模型存在一个显著的决策转换过程,将网络划分为两个阶段:模型尚未能预测正确答案的“静默阶段”(Silent Phase),以及正确预测开始涌现的“决定性阶段”(Decisive Phase)。研究表明,剪枝决定性阶段的影响微乎其微,而剪枝静默阶段则会触发即时的性能崩溃,凸显了该阶段对结构变化的极端敏感性。因此,剪枝导致的性能崩溃源于对静默阶段的破坏,从而阻碍了关键决策转换的发生。

🔬 方法详解

问题定义:论文旨在解决大语言模型在进行层剪枝时,为何会出现非线性的性能急剧下降问题。现有研究多关注隐藏层表示的相似性,却忽略了模型在推理过程中如何从输入映射到最终决策的动态演变过程。

核心思路:论文提出从“决策表示”的角度审视模型,即关注模型在不同层级对选项的偏好程度。通过量化模型在各层的决策倾向,将模型内部划分为“静默阶段”和“决定性阶段”,从而定位剪枝的敏感区域。

技术框架:研究采用迭代剪枝策略,逐层移除模型结构。在每一层,通过计算决策边界(衡量正确选项与干扰项的置信度差距)和选项频率(衡量模型对特定选项的偏好分布)来追踪模型决策状态的演变。

关键创新:首次提出了决策转换(Decision Transition)的概念,将模型内部的层级功能解耦。证明了性能崩溃并非均匀分布,而是与模型内部特定的决策形成阶段紧密相关,打破了以往对剪枝敏感度分布的认知。

关键设计:核心设计在于定义了两个关键指标:决策边界(Decision Margin)用于量化正确答案的相对优势,选项频率(Option Frequency)用于捕捉模型在多项选择任务中的概率分布偏移,以此作为评估层级重要性的量化依据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验通过对多项选择任务的深入分析,量化了模型各层对最终输出的贡献度。结果表明,剪枝“决定性阶段”的层对准确率影响极小,而剪枝“静默阶段”的层会导致准确率出现断崖式下跌。这一发现为解释模型鲁棒性提供了量化证据,并为后续的结构化剪枝算法提供了明确的避险准则。

🎯 应用场景

该研究成果可直接应用于大语言模型的轻量化部署,特别是在资源受限的边缘设备上。通过识别并保护“静默阶段”的层,开发者可以设计更稳健的剪枝策略,在保持模型推理性能的前提下,最大化压缩比,显著降低计算延迟与内存占用。

📄 摘要(原文)

Layer pruning efficiently reduces Large Language Model (LLM) computational costs but often triggers sudden performance collapse. Existing representation-based analyses struggle to explain this mechanism. We propose studying pruning through decision representation. Focusing on multiple-choice tasks, we introduce two metrics, Decision Margin and Option Frequency, and an Iterative Pruning method to analyze layer-wise decision dynamics. Our findings reveal a sharp decision transition that partitions the network into two stages: a Silent Phase, where the model cannot yet predict the correct answer, and a Decisive Phase, where the correct prediction emerges. We also find that pruning the Decisive Phase has minimal impact, whereas pruning the Silent Phase triggers immediate performance collapse, highlighting its extreme sensitivity to structural changes. Therefore, we conclude that pruning-induced collapse stems from disrupting the Silent Phase, which prevents the critical decision transition from occurring.