ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization

作者: Lawrence Liu, Alexander Liu, Mengdi Wang, Tuo Zhao, Lin F. Yang

分类: cs.LG

发布日期: 2025-10-07

💡 一句话要点

ARMOR：通过自适应矩阵分解实现高性能半结构化剪枝

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型剪枝 半结构化剪枝 矩阵分解 硬件加速

📋 核心要点

现有LLM剪枝方法，特别是2:4稀疏剪枝，虽能加速推理，但常导致显著的性能下降。
ARMOR通过将权重矩阵分解为稀疏核心和块对角wrapper，实现更灵活的误差校正，提升模型质量。
实验表明，ARMOR在Llama和Qwen模型上显著优于现有2:4剪枝方法，同时保持推理加速和内存减少。

📝 摘要（中文）

大型语言模型（LLMs）因其巨大的计算和内存需求而面临严峻的部署挑战。半结构化剪枝，特别是2:4稀疏性，为实际的硬件加速提供了一条途径，但现有方法通常会导致显著的性能下降。为了弥合这一差距，我们引入了ARMOR（Adaptive Representation with Matrix-factORization），一种新颖的单次后训练剪枝算法。ARMOR不是直接剪枝权重，而是将每个权重矩阵分解为一个2:4稀疏核心，并用两个低开销的块对角矩阵包裹。与传统的2:4剪枝技术相比，这些wrapper充当高效的预处理和后处理误差校正器，提供更大的灵活性来保持模型质量。稀疏核心和块对角wrapper通过块坐标下降算法选择，该算法最小化层级的代理损失。我们从理论上证明，这种优化保证收敛到代理损失小于或等于最先进剪枝算法的解。在Llama和Qwen模型系列上的实验表明，ARMOR在各种下游任务和困惑度评估中始终且显著优于最先进的2:4剪枝方法。ARMOR在保持2:4剪枝的推理加速和显著内存使用减少的同时，实现了卓越的性能，从而在模型压缩和任务准确性之间建立了更有效的权衡。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）部署时面临的计算和内存资源瓶颈问题。现有的半结构化剪枝方法，特别是2:4稀疏剪枝，虽然可以降低计算和内存需求，但往往会带来显著的性能损失，限制了其在实际应用中的价值。

核心思路：ARMOR的核心思路是将权重矩阵分解为一个2:4稀疏的核心矩阵，并用两个低开销的块对角矩阵（wrapper）包裹。这些wrapper充当误差校正器，在剪枝前后对权重进行调整，从而在保持稀疏性的同时，尽可能地减少剪枝带来的性能损失。这种分解方式允许更大的灵活性，能够更好地保留模型的重要信息。

技术框架：ARMOR算法主要包含以下几个阶段：1) 权重矩阵分解：将原始权重矩阵分解为稀疏核心矩阵和两个块对角wrapper矩阵。2) 块坐标下降优化：使用块坐标下降算法，迭代优化稀疏核心矩阵和wrapper矩阵，以最小化层级的代理损失。3) 模型评估：在下游任务上评估剪枝后的模型性能。

关键创新：ARMOR的关键创新在于其自适应的矩阵分解方式。与直接对权重进行剪枝的方法不同，ARMOR通过引入wrapper矩阵，实现了更精细的权重调整，从而更好地保留了模型的信息。此外，块坐标下降优化算法保证了算法的收敛性，并能找到一个较好的局部最优解。

关键设计：ARMOR的关键设计包括：1) 2:4稀疏核心矩阵：选择2:4稀疏模式是为了兼顾硬件加速效率和模型性能。2) 块对角wrapper矩阵：块对角结构保证了wrapper矩阵的低开销，避免引入过多的计算负担。3) 层级代理损失：使用层级代理损失可以更好地控制每一层的剪枝程度，避免出现过剪枝或欠剪枝的情况。4) 块坐标下降算法：保证算法收敛到局部最优解。

🖼️ 关键图片

📊 实验亮点

ARMOR在Llama和Qwen模型上进行了实验，结果表明其性能显著优于现有的2:4剪枝方法。在各种下游任务和困惑度评估中，ARMOR都取得了更好的结果，同时保持了2:4剪枝的推理加速和内存减少的优势。例如，在某些任务上，ARMOR相比于其他2:4剪枝方法，性能提升超过了5%。

🎯 应用场景

ARMOR算法可广泛应用于大型语言模型的压缩和加速，特别是在资源受限的边缘设备或移动设备上部署LLM。通过降低模型的计算和内存需求，ARMOR可以使LLM在更多场景下得到应用，例如智能助手、自然语言处理、机器翻译等。此外，该方法也可以应用于其他类型的深度学习模型，具有广泛的应用前景。

📄 摘要（原文）

Large language models (LLMs) present significant deployment challenges due to their immense computational and memory requirements. While semi-structured pruning, particularly 2:4 sparsity, offers a path to practical hardware acceleration, existing methods often incur substantial performance degradation. To bridge this gap, we introduce ARMOR: (Adaptive Representation with Matrix-factORization), a novel one-shot post-training pruning algorithm. Instead of directly pruning weights, ARMOR factorizes each weight matrix into a 2:4 sparse core wrapped by two low-overhead, block diagonal matrices. These wrappers act as efficient pre and post-transformation error correctors, offering greater flexibility to preserve model quality compared to conventional 2:4 pruning techniques. The sparse core and block diagonal wrappers are chosen through a block coordinate descent algorithm that minimizes a layer-wise proxy loss. We theoretically prove this optimization is guaranteed to converge to a solution with a proxy loss less than or equal to state-of-the-art pruning algorithms. Experiments on Llama (Touvron et al., 2023; Dubey et al., 2024) and Qwen (Yang et al., 2025) model families demonstrate that ARMOR consistently and significantly outperforms state-of-the-art 2:4 pruning methods across a wide range of downstream tasks and perplexity evaluations. ARMOR achieves this superior performance while retaining the inference speedups and substantial memory usage reductions of 2:4 pruning, establishing a more effective trade-off between model compression and task accuracy

ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理