Fragile Knowledge, Robust Instruction-Following: The Width Pruning Dichotomy in Llama-3.2
作者: Pere Martra
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-12-27
备注: 23 pages, 5 figures, 9 tables. Code available at https://github.com/peremartra/llama-glu-expansion-pruning
💡 一句话要点
Llama-3.2宽度剪枝揭示:参数知识退化,指令跟随能力增强
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 模型剪枝 结构化剪枝 指令跟随 知识蒸馏
📋 核心要点
- 现有剪枝方法通常假设模型能力会一致性退化,但实际情况可能并非如此,需要更细粒度的分析。
- 论文核心思想是通过结构化宽度剪枝,选择性地减少模型参数,观察不同能力的变化,从而优化模型。
- 实验表明,适当的剪枝可以显著提升指令跟随能力,同时保持多步推理的稳健性,并降低能耗。
📝 摘要(中文)
本研究通过最大绝对权重(MAW)准则指导的GLU-MLP层结构化宽度剪枝,揭示了扩展率降低对模型能力影响的系统性二分法。依赖参数知识的任务(如MMLU、GSM8K)和困惑度指标性能可预测地下降,而指令跟随能力显著提高(Llama-3.2-1B和3B模型在IFEval上提升+46%至+75%),多步推理保持稳健。该模式挑战了剪枝导致一致性退化的普遍假设。我们评估了七种扩展率配置,使用综合基准评估事实知识、数学推理、语言理解、指令跟随和真实性。分析表明,扩展率是选择性调节认知能力的关键架构参数,而不仅仅是压缩指标。我们首次系统地描述了这种选择性保留现象。值得注意的是,我们记录了事实知识容量(MMLU)和真实性指标(TruthfulQA-MC2)之间存在稳健的负相关关系(Llama-3B中r = -0.864,p = 0.012):随着知识退化,模型区分错误概念的能力持续提高。这连接了两个先前不同的研究领域,表明MAW指导的宽度剪枝充当选择性过滤器,减少参数知识,同时保持或增强行为对齐。此外,我们量化了上下文相关的效率权衡:剪枝配置实现了高达23%的能耗降低(J/token),但在单请求延迟方面会受到惩罚,而批量处理工作负载则普遍受益。
🔬 方法详解
问题定义:现有大语言模型剪枝方法通常假设剪枝会导致模型各项能力均匀退化,忽略了不同能力可能对模型参数的依赖程度不同。因此,如何选择性地剪枝,在保证关键能力的同时,提升模型效率是一个重要问题。
核心思路:论文的核心思路是通过结构化宽度剪枝,并使用最大绝对权重(MAW)准则来指导剪枝过程,从而选择性地移除对特定任务影响较小的神经元。这种方法旨在减少模型对参数知识的依赖,同时保留或增强指令跟随等能力。
技术框架:论文主要针对Llama-3.2模型进行实验,对GLU-MLP层的宽度进行剪枝。整体流程包括:1) 选择GLU-MLP层作为剪枝对象;2) 使用MAW准则计算每个神经元的重要性;3) 根据扩展率配置,移除重要性较低的神经元;4) 在多个基准测试上评估剪枝后模型的性能,包括事实知识、数学推理、语言理解、指令跟随和真实性。
关键创新:论文的关键创新在于发现了宽度剪枝对不同模型能力的影响存在二分法:参数知识相关任务性能下降,而指令跟随能力显著提升。此外,论文还揭示了事实知识容量和真实性指标之间的负相关关系,表明剪枝可以作为一种选择性过滤器,减少参数知识,同时提高模型的真实性。
关键设计:论文的关键设计包括:1) 使用最大绝对权重(MAW)作为神经元重要性评估标准;2) 针对GLU-MLP层进行结构化宽度剪枝;3) 评估了七种不同的扩展率配置,以探索不同剪枝程度对模型能力的影响;4) 使用IFEval等基准测试来评估指令跟随能力,并使用TruthfulQA-MC2来评估模型的真实性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Llama-3.2-1B和3B模型在经过宽度剪枝后,指令跟随能力在IFEval上分别提升了+46%和+75%。同时,剪枝后的模型在能耗方面实现了高达23%的降低(J/token)。此外,研究还发现事实知识容量(MMLU)和真实性指标(TruthfulQA-MC2)之间存在显著的负相关关系(r = -0.864,p = 0.012)。
🎯 应用场景
该研究成果可应用于大语言模型的轻量化部署,尤其是在资源受限的场景下,例如移动设备或边缘计算环境。通过选择性剪枝,可以在保证指令跟随能力的同时,降低模型大小和能耗,从而实现更高效的模型推理。此外,该研究也为模型安全和对齐提供了一种新的思路,通过降低模型对参数知识的依赖,可以提高模型的真实性和可靠性。
📄 摘要(原文)
Structured width pruning of GLU-MLP layers, guided by the Maximum Absolute Weight (MAW) criterion, reveals a systematic dichotomy in how reducing the expansion ratio affects different model capabilities. While performance on tasks relying on parametric knowledge (e.g., MMLU, GSM8K) and perplexity metrics degrades predictably, instruction-following capabilities improve substantially (+46% to +75% in IFEval for Llama-3.2-1B and 3B models), and multi-step reasoning remains robust (MUSR). This pattern challenges the prevailing assumption that pruning induces uniform degradation. We evaluated seven expansion ratio configurations using comprehensive benchmarks assessing factual knowledge, mathematical reasoning, language comprehension, instruction-following, and truthfulness. Our analysis identifies the expansion ratio as a critical architectural parameter that selectively modulates cognitive capabilities, rather than merely serving as a compression metric. We provide the first systematic characterization of this selective preservation phenomenon. Notably, we document a robust inverse correlation (r = -0.864, p = 0.012 in Llama-3B) between factual knowledge capacity (MMLU) and truthfulness metrics (TruthfulQA-MC2): as knowledge degrades, the model's ability to discriminate misconceptions improves consistently. This connects two previously distinct research areas, demonstrating that MAW-guided width pruning acts as a selective filter, reducing parametric knowledge while preserving or enhancing behavioral alignment. Additionally, we quantify context-dependent efficiency trade-offs: pruned configurations achieve up to 23% reduction in energy consumption (J/token) but incur penalties in single-request latency, whereas batch processing workloads benefit uniformly.