Think Before You Prune: Self-Reflective Structured Pruning for Reasoning Language Models
作者: Ziyan Wang, Enmao Diao, Qi Le, Pu Wang, Guanchu Wang, Minwoo Lee, Shu-ping Yeh, Li Yang
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-12-01
备注: 7 pages, 3 figures
💡 一句话要点
提出RESP自反思结构化剪枝框架,提升推理大模型在资源受限环境下的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推理大模型 结构化剪枝 自反思学习 思维链 资源受限环境
📋 核心要点
- 现有剪枝方法在推理大模型上表现不佳,因为校准数据与模型推理行为不匹配,导致剪枝后性能急剧下降。
- RESP框架通过自生成校准数据、解码时梯度重要性估计和渐进式再生,使剪枝决策与模型的推理动态对齐。
- 实验表明,RESP在Qwen3-8B上显著优于现有方法,在较高稀疏度下仍能保持较好的推理性能。
📝 摘要(中文)
推理大语言模型(RLMs),如OpenAI o1、DeepSeek-R1和Qwen3,通过思维链生成实现强大的多步推理,但其庞大的模型规模和冗长的解码时间输出使其部署成本高昂,不适用于资源受限的环境。为了降低计算和内存成本,剪枝提供了一种有前景的解决方案,通过移除不重要的参数来实现。然而,尽管现有剪枝方法在标准LLM上取得了成功,但它们严重损害了RLM,即使是适度的稀疏性(例如,20%)也会导致精度崩溃并完全破坏模型的推理连贯性。我们首先分析了现有剪枝流程在推理LLM上失败的原因,发现它们的脆弱性主要源于校准数据、剪枝目标和模型解码时推理行为之间的不匹配。我们的研究进一步表明,最可靠的校准信号不是来自人工编写的标签,而是来自模型自身生成的推理轨迹,这更准确地反映了其推理分布。在这些见解的指导下,我们引入了RESP,一个自反思结构化剪枝框架,通过自生成校准、仅解码的基于梯度的重要性估计和随着稀疏性增加而保持校准保真度的渐进式再生,使剪枝决策与模型的推理动态保持一致。在Qwen3-8B上的实验表明,RESP在GSM8K和MathQA上明显优于现有的结构化剪枝方法,在20-30%的稀疏度下保持接近稠密模型的精度,并大大减轻了在更高稀疏度下的性能崩溃。在40%的稀疏度下,RESP在GSM8K上达到81.3%的准确率,在MathQA上达到59.6%的准确率,分别超过最强的基线66.87%和47%。
🔬 方法详解
问题定义:现有剪枝方法在应用于推理大语言模型(RLMs)时,即使是很小的剪枝比例也会导致性能显著下降,推理连贯性遭到破坏。这是因为现有方法通常使用人工标注数据进行校准,而人工标注数据与模型实际推理过程中的数据分布存在差异,导致剪枝决策与模型的真实推理行为不一致。
核心思路:论文的核心思路是利用模型自身生成的推理轨迹作为校准信号,使剪枝决策与模型的推理动态保持一致。通过这种自反思的方式,可以更准确地评估参数的重要性,从而在剪枝过程中保留对推理至关重要的参数,避免性能大幅下降。
技术框架:RESP框架包含三个主要阶段:1) 自生成校准:使用模型自身生成推理轨迹作为校准数据,更准确地反映模型的推理分布。2) 解码时梯度重要性估计:仅在解码阶段计算梯度,以评估参数对推理过程的重要性。3) 渐进式再生:随着稀疏性增加,逐步重新评估和调整剪枝决策,保持校准保真度。
关键创新:RESP的关键创新在于使用模型自身生成的推理轨迹进行剪枝校准。与传统的基于人工标注数据的校准方法相比,自生成校准能够更准确地捕捉模型的推理行为,从而做出更明智的剪枝决策。此外,解码时梯度重要性估计和渐进式再生进一步提高了剪枝的准确性和稳定性。
关键设计:RESP使用模型自身的思维链(Chain-of-Thought, CoT)生成作为校准数据。在解码阶段,通过计算梯度来评估每个参数的重要性,并根据重要性进行结构化剪枝。渐进式再生通过在每次剪枝后重新校准模型,确保剪枝决策的有效性。具体的剪枝比例和再生频率需要根据实验进行调整。
🖼️ 关键图片
📊 实验亮点
在Qwen3-8B模型上,RESP在GSM8K和MathQA数据集上显著优于现有结构化剪枝方法。在20-30%的稀疏度下,RESP保持了接近稠密模型的精度。在40%的稀疏度下,RESP在GSM8K上达到81.3%的准确率,在MathQA上达到59.6%的准确率,分别超过最强的基线66.87%和47%。这些结果表明,RESP能够有效缓解推理大模型剪枝后的性能崩溃问题。
🎯 应用场景
RESP框架可应用于各种需要部署在资源受限环境中的推理大语言模型,例如移动设备、边缘计算设备等。通过降低模型的计算和内存成本,可以使这些模型在资源有限的平台上高效运行,从而扩展其应用范围,例如在移动设备上实现本地推理,或在边缘服务器上进行实时分析。
📄 摘要(原文)
Reasoning LLMs (RLMs) such as OpenAI o1, DeepSeek-R1, and Qwen3 deliver strong multi-step reasoning through chain-of-thought generation, but their large model sizes and lengthy decode-time outputs make them costly to deploy and unsuitable for resource-constrained settings. To reduce computing and memory cost, pruning offers a promising solution by removing unimportant parameters. However, despite their success on standard LLMs, existing pruning methods severely damage RLMs, as even moderate sparsity (e.g., 20%) can collapse accuracy and completely disrupt the model's reasoning coherence. We begin by analyzing why existing pruning pipelines fail on reasoning LLMs and find that their brittleness largely stems from a mismatch between the calibration data, the pruning objective, and the model's decode-time reasoning behavior. Our study further shows that the most reliable calibration signal comes not from human-written labels but from the model's own self-generated reasoning traces, which more accurately reflect its inference distribution. Guided by these insights, we introduce RESP, a self-reflective structured pruning framework that aligns pruning decisions with the model's reasoning dynamics through self-generated calibration, decode-only gradient-based importance estimation, and progressive regeneration that maintains calibration fidelity as sparsity increases. Experiments on Qwen3-8B demonstrate that RESP markedly outperforms existing structured pruning methods on both GSM8K and MathQA, preserving near-dense accuracy at 20-30% sparsity and substantially mitigating performance collapse at higher sparsity levels. At 40% sparsity, RESP attains 81.3% accuracy on GSM8K and 59.6% on MathQA, surpassing the strongest baselines by 66.87% and 47%, respectively.