Diet Your LLM: Dimension-wise Global Pruning of LLMs via Merging Task-specific Importance Score

📄 arXiv: 2603.23985v1 📥 PDF

作者: Jimyung Hong, Jaehyung Kim

分类: cs.LG

发布日期: 2026-03-25

备注: 14 pages, 10 figures. Code available at https://github.com/Jimmy145123/DIET


💡 一句话要点

DIET:通过融合任务特定重要性分数的维度级全局剪枝LLM方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 结构化剪枝 任务感知 无需训练 模型压缩

📋 核心要点

  1. 现有LLM结构化剪枝方法在任务无关和任务感知之间存在权衡,前者缺乏任务适应性,后者训练成本高昂。
  2. DIET通过融合任务特定重要性分数,实现维度级别的全局剪枝,无需额外训练,降低了计算成本。
  3. 实验表明,DIET在Gemma-2模型上实现了显著的性能提升,尤其是在高稀疏度下,优于现有方法。

📝 摘要(中文)

大型语言模型(LLMs)展现了卓越的能力,但其庞大的规模给实际部署带来了重大挑战。结构化剪枝通过移除整个维度或层提供了一个有希望的解决方案,但现有方法面临着关键的权衡:任务无关的方法无法适应任务特定的需求,而任务感知的方法需要昂贵的训练来学习任务适应性。我们提出了DIET(Dimension-wise global pruning of LLMs via merging Task-wise importance scores),一种无需训练的结构化剪枝方法,它结合了维度级别的粒度和任务感知的选择。DIET仅使用每个任务100个样本来分析跨任务的激活幅度,然后应用多数投票来构建单个全局掩码。DIET不需要预计算或训练的大量成本。使用Gemma-2 2B和9B模型在七个零样本基准上的实验证明了DIET的有效性;例如,在Gemma-2 2B上以20%的稀疏度,与先前最先进的结构化剪枝方法相比,DIET实现了接近10%的平均准确率提升。这种优势在各种稀疏度级别和模型规模上持续存在,使DIET成为结构化LLM剪枝的一种实用且稳健的选择。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)结构化剪枝中任务适应性和训练成本之间的矛盾。现有任务无关的剪枝方法无法针对特定任务进行优化,而任务感知的剪枝方法则需要大量的训练数据和计算资源来学习任务特定的重要性,这限制了它们在实际应用中的可行性。

核心思路:DIET的核心思路是通过一种无需训练的方式,融合不同任务的重要性信息,从而实现维度级别的全局剪枝。它通过分析少量样本在不同任务下的激活幅度,来评估每个维度的重要性,并采用多数投票的方式确定最终的剪枝掩码。

技术框架:DIET方法主要包含以下几个阶段:1) 任务激活幅度分析:对于每个任务,使用少量样本(例如100个)运行模型,并记录每个维度(例如,神经元)的激活幅度。2) 任务特定重要性评分:基于激活幅度,为每个任务的每个维度计算一个重要性评分。3) 全局掩码构建:通过多数投票的方式,将不同任务的重要性评分进行融合,生成一个全局的剪枝掩码。4) 模型剪枝:根据全局掩码,移除模型中不重要的维度。

关键创新:DIET的关键创新在于它提出了一种无需训练的任务感知结构化剪枝方法。与现有方法相比,DIET不需要额外的训练过程,从而大大降低了计算成本。此外,DIET通过融合不同任务的重要性信息,实现了更好的任务适应性。

关键设计:DIET的关键设计包括:1) 激活幅度分析:使用激活幅度的统计量(例如平均值或最大值)来评估维度的重要性。2) 多数投票:采用多数投票的方式来融合不同任务的重要性评分,从而选择在大多数任务中都不重要的维度进行剪枝。3) 维度级别剪枝:对模型的维度(例如,神经元)进行剪枝,而不是对整个层或块进行剪枝,从而实现更细粒度的剪枝。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DIET在Gemma-2 2B和9B模型上进行了实验,并在七个零样本基准上进行了评估。结果表明,在20%的稀疏度下,DIET在Gemma-2 2B模型上实现了接近10%的平均准确率提升,优于现有的结构化剪枝方法。此外,DIET的优势在不同的稀疏度级别和模型规模上都得到了验证,表明其具有良好的泛化能力。

🎯 应用场景

DIET方法可应用于各种需要部署大型语言模型的场景,例如移动设备、边缘计算和资源受限的环境。通过降低模型的大小和计算复杂度,DIET可以提高LLM的推理速度和能效,使其更易于部署和使用。此外,DIET还可以用于模型压缩和知识蒸馏,从而进一步提高LLM的性能。

📄 摘要(原文)

Large language models (LLMs) have demonstrated remarkable capabilities, but their massive scale poses significant challenges for practical deployment. Structured pruning offers a promising solution by removing entire dimensions or layers, yet existing methods face critical trade-offs: task-agnostic approaches cannot adapt to task-specific requirements, while task-aware methods require costly training to learn task adaptability. We propose DIET (Dimension-wise global pruning of LLMs via merging Task-wise importance scores), a training-free structured pruning method that combines dimension-level granularity with task-aware selection. DIET profiles activation magnitudes across tasks using only 100 samples per task, then applies majority voting to construct a single global mask. DIET does not require large costs from pre-computation or training. Experiments on seven zero-shot benchmarks using Gemma-2 2B and 9B models demonstrate the effectiveness of DIET; for example, at 20% sparsity on Gemma-2 2B, DIET achieves near 10% average accuracy improvement, compared to previous state-of-the-art structured pruning methods. This advantage persists across various sparsity levels and model scales, positioning DIET as a practical and robust choice for structured LLM pruning.