SparseForge: Efficient Semi-Structured LLM Sparsification via Annealing of Hessian-Guided Soft-Mask

📄 arXiv: 2605.06402v1 📥 PDF

作者: Liu Hanzuo, Chaofan Lin, Weixuan Sun, Yulong Wang, Key, Rayying, Mingyu Gao

分类: cs.LG

发布日期: 2026-05-07


💡 一句话要点

SparseForge:通过Hessian引导的软掩码退火实现高效的半结构化LLM稀疏化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 半结构化剪枝 稀疏化 Hessian感知 软掩码退火

📋 核心要点

  1. 现有后训练半结构化剪枝方法因结构耦合导致精度下降,需大规模稀疏再训练,计算成本高昂。
  2. SparseForge通过优化稀疏掩码和Hessian引导的软掩码退火,提升稀疏恢复效率,无需大量tokens。
  3. 实验表明,SparseForge在LLaMA-2-7B上仅用5B tokens就超越了密集模型,接近SOTA方法使用40B tokens的效果。

📝 摘要(中文)

半结构化稀疏性为加速大语言模型(LLMs)提供了可行的途径,并能获得原生硬件支持。然而,由于强大的结构耦合,后训练半结构化剪枝通常会导致显著的质量下降。现有方法依赖于大规模的稀疏再训练来恢复精度,导致计算成本高昂。我们提出了SparseForge,一个后训练框架,通过直接优化稀疏掩码而非扩大再训练tokens规模来提高恢复效率。SparseForge结合了Hessian感知的权重估计与软掩码的逐步退火,使其转化为硬件可执行的结构化稀疏性,从而实现稳定和高效的稀疏恢复。在LLaMA-2-7B模型上,2:4稀疏度下,SparseForge仅使用5B的再训练tokens就实现了57.27%的平均零样本精度,超过了密集模型的56.43%精度,并接近使用40B tokens的先进方法所达到的57.52%结果。SparseForge在精度-效率权衡方面的改进在不同的模型系列中都表现出一致性。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLMs)后训练半结构化剪枝中,因结构耦合导致的精度下降问题。现有方法依赖于大规模的稀疏再训练来恢复精度,这带来了巨大的计算开销,限制了其在资源受限场景下的应用。

核心思路:SparseForge的核心思路是直接优化稀疏掩码,而非依赖大规模的tokens再训练。通过结合Hessian感知的权重估计和软掩码的逐步退火,将非结构化稀疏性转化为硬件可执行的结构化稀疏性,从而实现高效的精度恢复。

技术框架:SparseForge框架主要包含两个阶段:1) Hessian感知的权重重要性估计:利用Hessian矩阵的信息来评估模型参数的重要性,从而指导稀疏掩码的生成。2) 软掩码退火:通过逐步调整软掩码的阈值,将非结构化稀疏性转化为硬件友好的结构化稀疏性。这个过程允许模型在保持精度的同时,逐步适应稀疏结构。

关键创新:SparseForge的关键创新在于将Hessian信息融入到稀疏掩码的优化过程中,并采用软掩码退火策略。与传统的硬剪枝方法相比,软掩码退火允许模型在剪枝过程中进行更平滑的调整,从而减少了精度损失。此外,直接优化稀疏掩码而非依赖大规模再训练,显著降低了计算成本。

关键设计:Hessian信息的计算采用了一种高效的近似方法,以降低计算复杂度。软掩码退火过程中的阈值调整策略,例如线性退火或余弦退火,对最终的稀疏模型性能有重要影响。此外,损失函数的设计也至关重要,通常包括一个重构损失项和一个稀疏性约束项,以平衡精度和稀疏度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SparseForge在LLaMA-2-7B模型上,2:4稀疏度下,仅使用5B的再训练tokens就实现了57.27%的平均零样本精度,超过了密集模型的56.43%精度,并接近使用40B tokens的先进方法所达到的57.52%结果。这表明SparseForge在精度-效率权衡方面具有显著优势。

🎯 应用场景

SparseForge可应用于大语言模型的轻量化部署,尤其是在资源受限的边缘设备上。通过降低模型大小和计算复杂度,SparseForge能够加速推理速度,并降低能耗,从而使得LLMs能够在移动设备、嵌入式系统等场景中得到更广泛的应用。此外,该方法还可以用于模型压缩和知识蒸馏等领域,提升模型效率。

📄 摘要(原文)

Semi-structured sparsity provides a practical path to accelerate large language models (LLMs) with native hardware support, but post-training semi-structured pruning often suffers from substantial quality degradation due to strong structural coupling. Existing methods rely on large-scale sparse retraining to recover accuracy, resulting in high computational cost. We propose SparseForge, a post-training framework that improves recovery efficiency by directly optimizing the sparsity mask rather than scaling up retraining tokens. SparseForge combines Hessian-aware importance estimation with progressive annealing of soft masks into hardware-executable structured sparsity, enabling stable and efficient sparse recovery. On LLaMA-2-7B under 2:4 sparsity, SparseForge achieves 57.27% average zero-shot accuracy with only $\textbf{5B}$ retraining tokens, surpassing the dense model's 56.43% accuracy and approaching the 57.52% result of a state-of-the-art method using $\textbf{40B}$ tokens. Such improvements on the accuracy-efficiency trade-off from SparseForge are shown to be consistent across model families.