Doing More With Less: Revisiting the Effectiveness of LLM Pruning for Test-Time Scaling
作者: Ocean Monjur, Shahriar Kabir Nahin, Anshuman Chhabra
分类: cs.AI, cs.CL, cs.LG
发布日期: 2026-04-28
💡 一句话要点
非结构化剪枝提升LLM在测试时计算扩展中的推理性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 剪枝 非结构化剪枝 测试时计算扩展 推理性能
📋 核心要点
- 现有研究表明,结构化剪枝会显著降低LLM在测试时计算扩展(TTS)中的推理性能。
- 该论文探索非结构化剪枝对TTS性能的影响,并研究不同层级稀疏度分配策略。
- 实验结果表明,非结构化剪枝可以增强TTS性能,有时甚至超过未剪枝的LLM。
📝 摘要(中文)
当前的大型语言模型(LLMs)通过测试时计算扩展(TTS)展现了卓越的推理能力,但其庞大的参数量和高昂的推理成本促使人们开发剪枝方法,以在不牺牲性能的情况下减少模型大小。然而,对于推理LLM,先前的工作表明,结构化剪枝(移除整个层块)会显著降低TTS推理性能。本文重新审视这一假设,并研究非结构化剪枝(仅移除某些冗余/有害权重)是否也存在类似的限制。令人惊讶的是,在s1.1-7B和Qwen3-8B两个推理LLM的四个推理基准测试中,大量的实验一致表明,与结构化剪枝相比,非结构化剪枝增强了TTS性能,有时甚至优于未剪枝的完整权重LLM。此外,本文还实证研究了不同层级稀疏度分配策略的影响,这是实例化非结构化剪枝方法的一个重要参数选择。这些发现挑战了剪枝总是降低TTS性能的传统观念,并表明精心进行的剪枝可以进一步提高TTS的有效性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在测试时计算扩展(TTS)中,因模型参数量过大导致推理成本高昂的问题。现有研究表明,结构化剪枝虽然能减少模型大小,但会显著降低TTS推理性能,因此需要探索更有效的剪枝方法,在降低模型复杂度的同时,保持甚至提升TTS性能。
核心思路:论文的核心思路是探索非结构化剪枝在TTS中的应用潜力。与结构化剪枝不同,非结构化剪枝仅移除模型中冗余或有害的权重,从而更精细地控制模型的稀疏性。通过精心设计的非结构化剪枝策略,可以在减少模型参数的同时,保留模型的重要信息,从而提升TTS性能。
技术框架:论文的技术框架主要包括以下几个步骤:1)选择合适的LLM模型(如s1.1-7B和Qwen3-8B);2)应用非结构化剪枝算法,对模型进行剪枝;3)在多个推理基准测试上评估剪枝后模型的TTS性能;4)研究不同层级稀疏度分配策略对TTS性能的影响。
关键创新:论文的关键创新在于发现非结构化剪枝可以增强LLM在TTS中的推理性能,挑战了传统观念,即剪枝总是降低TTS性能。此外,论文还研究了不同层级稀疏度分配策略对TTS性能的影响,为非结构化剪枝的实际应用提供了指导。
关键设计:论文的关键设计包括:1)选择合适的非结构化剪枝算法,例如基于权重的剪枝或基于梯度的剪枝;2)设计合理的层级稀疏度分配策略,例如均匀分配、重要性采样等;3)使用标准的推理基准测试评估TTS性能,例如ARC、HellaSwag等;4)对比不同剪枝策略和未剪枝模型的TTS性能,进行统计显著性分析。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在s1.1-7B和Qwen3-8B两个LLM上,非结构化剪枝在四个推理基准测试中始终优于结构化剪枝,并且在某些情况下甚至超过了未剪枝的完整权重模型。具体性能提升幅度取决于剪枝策略和稀疏度分配,但总体趋势表明非结构化剪枝可以有效提升TTS性能。
🎯 应用场景
该研究成果可应用于各种需要高性能和低延迟的LLM推理场景,例如智能客服、自动问答、机器翻译等。通过非结构化剪枝,可以在资源受限的设备上部署大型语言模型,降低推理成本,提高用户体验。此外,该研究还可以促进LLM压缩和加速技术的发展,推动人工智能在边缘计算等领域的应用。
📄 摘要(原文)
While current Large Language Models (LLMs) exhibit remarkable reasoning capabilities through test-time compute scaling (TTS), their massive parameter counts and high inference costs have motivated the development of pruning methods that can reduce model size without sacrificing performance. However, specific to reasoning LLMs, prior work has shown that structured pruning (methods which removes entire set of layer blocks), significantly degrades TTS reasoning performance. In this work, we revisit this assumption and instead investigate whether unstructured pruning (methods that carefully remove only certain redundant/detrimental weights) exhibits similar limitations. Surprisingly, our extensive experiments across four reasoning benchmarks on two reasoning LLMs: s1.1-7B and Qwen3-8B, consistently show that unstructured pruning augments TTS performance compared to structured pruning, and at times can even outperform the unpruned full-weight LLMs. Furthermore, we also empirically study the impact of different layer-wise sparsity allocation strategies, which are an important parametric choice for instantiating unstructured pruning methods. These findings challenge the conventional notion that pruning always reduces TTS performance and in fact, suggest that carefully undertaken pruning can improve TTS effectiveness even further.