COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

📄 arXiv: 2509.06836v3 📥 PDF

作者: Eugene Kwek, Wenpeng Yin

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-09-08 (更新: 2025-10-10)


💡 一句话要点

COMPACT:面向通道和Token的通用Token优化模型剪枝,提升小模型性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型剪枝 语言模型压缩 Transformer 词汇表剪枝 FFN剪枝 低资源部署 小型语言模型

📋 核心要点

  1. 现有剪枝方法在压缩LLM时存在局限,宽度剪枝破坏Transformer结构,深度剪枝导致精度骤降,且对小型语言模型(SLM)效果不佳。
  2. COMPACT联合剪枝稀有词汇和FFN中间通道,利用通用token加权激活对齐重要性,兼顾深度和宽度剪枝的优势。
  3. 实验表明,COMPACT在多种模型(0.5B-70B)上实现了SOTA下游性能,显著减少参数、内存和延迟,且保持了标准Transformer架构。

📝 摘要(中文)

为了提高大型语言模型(LLM)在边缘部署、交互式应用和大规模可持续推理方面的效率,本文提出COMPACT方法。该方法联合执行:(i)剪枝稀有词汇以缩小嵌入/LM head层;(ii)使用通用token加权激活剪枝FFN中间通道,使重要性与剪枝后的token分布对齐。COMPACT继承了深度和宽度剪枝的优点,如部署友好性(保持标准Transformer架构)、尺度适应性(权衡词汇与FFN剪枝)、具有竞争力的剪枝时间和显著的内存节省以及吞吐量提升。在Qwen、LLaMA和Gemma系列(0.5B-70B)上的实验表明,COMPACT实现了最先进的下游性能,并显著减少了参数量、GPU内存占用和延迟。

🔬 方法详解

问题定义:现有宽度剪枝方法通常会破坏标准的Transformer架构,需要定制化的推理代码,增加了部署的复杂性。深度剪枝虽然保持了架构,但可能导致显著的精度下降。此外,许多针对LLM有效的剪枝方法在SLM上表现不佳。因此,需要一种既能有效压缩模型,又能保持精度和标准架构的剪枝方法,尤其是在SLM上。

核心思路:COMPACT的核心思路是联合优化词汇表和FFN层的剪枝,通过剪枝不常用的token来减小embedding层和LM head的大小,同时利用token的重要性信息来指导FFN中间层的剪枝。这种联合优化允许在词汇表大小和FFN层大小之间进行权衡,从而更好地适应不同的模型规模和任务需求。

技术框架:COMPACT方法包含两个主要阶段:(1) 词汇表剪枝:识别并移除模型词汇表中不常用的token,从而减小embedding层和LM head的大小。(2) FFN通道剪枝:使用通用token加权激活来评估FFN中间通道的重要性,并剪枝不重要的通道。整个过程保持了标准的Transformer架构,无需定制化的推理代码。

关键创新:COMPACT的关键创新在于联合优化词汇表和FFN层的剪枝,并使用通用token加权激活来指导FFN通道的剪枝。与传统的宽度或深度剪枝方法相比,COMPACT能够更好地平衡模型大小和精度,并且对SLM也有效。此外,COMPACT保持了标准的Transformer架构,易于部署。

关键设计:在词汇表剪枝方面,可以使用token的频率或重要性作为剪枝的依据。在FFN通道剪枝方面,通用token加权激活是指对每个token的激活值进行加权,权重取决于该token在训练数据中的频率或重要性。可以使用不同的损失函数来指导剪枝过程,例如,可以使用重构损失来确保剪枝后的模型能够尽可能地重构原始输入。

📊 实验亮点

COMPACT在Qwen、LLaMA和Gemma系列模型(0.5B-70B)上进行了实验,结果表明其在下游任务上实现了最先进的性能。与现有方法相比,COMPACT显著减少了参数量、GPU内存占用和延迟,同时保持了较高的精度。具体数据未在摘要中给出,但强调了“substantial reductions”和“throughput gains”。

🎯 应用场景

COMPACT方法适用于各种需要高效部署LLM和SLM的场景,例如边缘计算设备、移动应用和资源受限的环境。通过减少模型大小、内存占用和延迟,COMPACT可以使这些模型在这些场景中更实用,并降低推理成本。该方法还有助于实现更可持续的大规模语言模型推理。

📄 摘要(原文)

Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.