SparseForge: Efficient Semi-Structured LLM Sparsification via Annealing of Hessian-Guided Soft-Mask

作者: Liu Hanzuo, Chaofan Lin, Weixuan Sun, Yulong Wang, Key, Rayying, Mingyu Gao

分类: cs.LG

发布日期: 2026-05-07

💡 一句话要点

SparseForge：通过Hessian引导的软掩码退火实现高效的半结构化LLM稀疏化

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 半结构化剪枝 稀疏化 Hessian感知 软掩码退火

📋 核心要点

现有后训练半结构化剪枝方法因结构耦合导致精度下降，需大规模稀疏再训练，计算成本高昂。
SparseForge通过优化稀疏掩码和Hessian引导的软掩码退火，提升稀疏恢复效率，无需大量tokens。
实验表明，SparseForge在LLaMA-2-7B上仅用5B tokens就超越了密集模型，接近SOTA方法使用40B tokens的效果。

📝 摘要（中文）

半结构化稀疏性为加速大语言模型（LLMs）提供了可行的途径，并能获得原生硬件支持。然而，由于强大的结构耦合，后训练半结构化剪枝通常会导致显著的质量下降。现有方法依赖于大规模的稀疏再训练来恢复精度，导致计算成本高昂。我们提出了SparseForge，一个后训练框架，通过直接优化稀疏掩码而非扩大再训练tokens规模来提高恢复效率。SparseForge结合了Hessian感知的权重估计与软掩码的逐步退火，使其转化为硬件可执行的结构化稀疏性，从而实现稳定和高效的稀疏恢复。在LLaMA-2-7B模型上，2:4稀疏度下，SparseForge仅使用5B的再训练tokens就实现了57.27%的平均零样本精度，超过了密集模型的56.43%精度，并接近使用40B tokens的先进方法所达到的57.52%结果。SparseForge在精度-效率权衡方面的改进在不同的模型系列中都表现出一致性。

🔬 方法详解

问题定义：论文旨在解决大语言模型（LLMs）后训练半结构化剪枝中，因结构耦合导致的精度下降问题。现有方法依赖于大规模的稀疏再训练来恢复精度，这带来了巨大的计算开销，限制了其在资源受限场景下的应用。

核心思路：SparseForge的核心思路是直接优化稀疏掩码，而非依赖大规模的tokens再训练。通过结合Hessian感知的权重估计和软掩码的逐步退火，将非结构化稀疏性转化为硬件可执行的结构化稀疏性，从而实现高效的精度恢复。

技术框架：SparseForge框架主要包含两个阶段：1) Hessian感知的权重重要性估计：利用Hessian矩阵的信息来评估模型参数的重要性，从而指导稀疏掩码的生成。2) 软掩码退火：通过逐步调整软掩码的阈值，将非结构化稀疏性转化为硬件友好的结构化稀疏性。这个过程允许模型在保持精度的同时，逐步适应稀疏结构。

关键创新：SparseForge的关键创新在于将Hessian信息融入到稀疏掩码的优化过程中，并采用软掩码退火策略。与传统的硬剪枝方法相比，软掩码退火允许模型在剪枝过程中进行更平滑的调整，从而减少了精度损失。此外，直接优化稀疏掩码而非依赖大规模再训练，显著降低了计算成本。

关键设计：Hessian信息的计算采用了一种高效的近似方法，以降低计算复杂度。软掩码退火过程中的阈值调整策略，例如线性退火或余弦退火，对最终的稀疏模型性能有重要影响。此外，损失函数的设计也至关重要，通常包括一个重构损失项和一个稀疏性约束项，以平衡精度和稀疏度。

🖼️ 关键图片

📊 实验亮点

SparseForge在LLaMA-2-7B模型上，2:4稀疏度下，仅使用5B的再训练tokens就实现了57.27%的平均零样本精度，超过了密集模型的56.43%精度，并接近使用40B tokens的先进方法所达到的57.52%结果。这表明SparseForge在精度-效率权衡方面具有显著优势。

🎯 应用场景

SparseForge可应用于大语言模型的轻量化部署，尤其是在资源受限的边缘设备上。通过降低模型大小和计算复杂度，SparseForge能够加速推理速度，并降低能耗，从而使得LLMs能够在移动设备、嵌入式系统等场景中得到更广泛的应用。此外，该方法还可以用于模型压缩和知识蒸馏等领域，提升模型效率。

📄 摘要（原文）

Semi-structured sparsity provides a practical path to accelerate large language models (LLMs) with native hardware support, but post-training semi-structured pruning often suffers from substantial quality degradation due to strong structural coupling. Existing methods rely on large-scale sparse retraining to recover accuracy, resulting in high computational cost. We propose SparseForge, a post-training framework that improves recovery efficiency by directly optimizing the sparsity mask rather than scaling up retraining tokens. SparseForge combines Hessian-aware importance estimation with progressive annealing of soft masks into hardware-executable structured sparsity, enabling stable and efficient sparse recovery. On LLaMA-2-7B under 2:4 sparsity, SparseForge achieves 57.27% average zero-shot accuracy with only $\textbf{5B}$ retraining tokens, surpassing the dense model's 56.43% accuracy and approaching the 57.52% result of a state-of-the-art method using $\textbf{40B}$ tokens. Such improvements on the accuracy-efficiency trade-off from SparseForge are shown to be consistent across model families.

SparseForge: Efficient Semi-Structured LLM Sparsification via Annealing of Hessian-Guided Soft-Mask

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理