From 2:4 to 8:16 sparsity patterns in LLMs for Outliers and Weights with Variance Correction
作者: Egor Maximov, Yulia Kuzkina, Azamat Kanametov, Alexander Prutko, Aleksei Goncharov, Maxim Zhelnin, Egor Shvetsov
分类: cs.LG, cs.AI
发布日期: 2025-07-03
💡 一句话要点
针对LLM,提出基于方差校正的8:16稀疏模式,提升离群点权重处理能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 模型压缩 稀疏化 结构化稀疏 8:16稀疏 离群权重 方差校正
📋 核心要点
- 现有LLM压缩方法如N:M稀疏化,对离群权重敏感,且灵活性不足,难以在压缩率和性能间取得平衡。
- 提出8:16半结构化稀疏,在存储开销略微增加的情况下,提升灵活性,更好地处理离群权重,从而提高压缩性能。
- 实验表明,8:16稀疏结合方差校正和权重均衡等技术,能够有效提升稀疏模型的性能,达到甚至超过未压缩模型的精度。
📝 摘要(中文)
随着大型语言模型(LLM)规模的增长,量化和稀疏化等高效压缩技术至关重要。虽然量化可以在降低精度的同时保持性能,但诸如N:M稀疏化等结构化稀疏方法通常由于灵活性有限以及对离群权重的敏感性而表现不佳。本文探索了8:16半结构化稀疏,证明了其超越性能阈值的能力——即压缩模型在等效内存约束下匹配其未压缩或更小模型的准确性。与2:4稀疏相比,8:16提供了更大的灵活性,且存储开销最小(0.875 vs. 0.75 bits/element)。本文还将稀疏结构化模式应用于显著权重,表明离群点的结构化稀疏与非结构化方法相比具有竞争力,并能带来同等或更好的结果。最后,本文证明了诸如方差校正和类似SmoothQuant的权重均衡等简单技术可以提高稀疏模型的性能。
🔬 方法详解
问题定义:现有的大型语言模型压缩方法,如2:4稀疏化,在面对模型中存在的离群权重时,性能会显著下降。同时,其固定的稀疏模式限制了模型的灵活性,难以在压缩率和模型精度之间找到最佳平衡点。因此,需要一种更灵活、更能适应离群权重的稀疏化方法,以在保证模型性能的前提下,实现更高的压缩率。
核心思路:本文的核心思路是采用8:16半结构化稀疏模式,这种模式相比于2:4稀疏,提供了更大的灵活性,允许模型在不同的位置选择保留哪些权重。同时,结合方差校正和类似SmoothQuant的权重均衡技术,可以进一步提高模型对离群权重的鲁棒性,从而提升整体性能。这样设计的目的是为了在压缩模型的同时,尽可能地保留模型的重要信息,减少性能损失。
技术框架:本文的技术框架主要包括以下几个阶段:1) 对原始LLM进行权重分析,识别出离群权重;2) 应用8:16半结构化稀疏模式,对模型进行稀疏化;3) 采用方差校正和权重均衡技术,对稀疏后的模型进行微调,以提高其性能。整个流程旨在通过更灵活的稀疏模式和优化技术,提升压缩模型的性能。
关键创新:本文最重要的技术创新点在于提出了将8:16半结构化稀疏应用于LLM,并结合方差校正和权重均衡等技术来提高模型对离群权重的鲁棒性。与传统的2:4稀疏相比,8:16稀疏提供了更大的灵活性,可以更好地适应模型中不同权重的分布。此外,方差校正和权重均衡技术可以有效地减少离群权重对模型性能的影响。
关键设计:在8:16稀疏模式中,每个16个元素的块中保留8个权重,这需要在灵活性和计算效率之间进行权衡。方差校正的具体实现方式是调整稀疏化后权重的方差,使其尽可能接近原始权重的方差。权重均衡则采用类似SmoothQuant的方法,通过调整权重和激活值的比例,来减少离群权重的影响。具体的参数设置和微调策略需要根据不同的模型和数据集进行调整。
📊 实验亮点
实验结果表明,8:16稀疏在保持甚至超过原始模型精度的前提下,实现了更高的压缩率。与2:4稀疏相比,8:16稀疏在多个LLM上都取得了更好的性能。此外,结合方差校正和权重均衡等技术,进一步提升了稀疏模型的性能,使其在处理离群权重时表现更加鲁棒。
🎯 应用场景
该研究成果可广泛应用于对计算资源和存储空间有严格限制的场景,例如移动设备、边缘计算设备等。通过高效压缩LLM,可以在这些设备上部署更大规模的模型,从而提升AI应用的用户体验和智能化水平。此外,该方法还可以应用于云端服务器,降低模型存储和推理成本,提高资源利用率。
📄 摘要(原文)
As large language models (LLMs) grow in size, efficient compression techniques like quantization and sparsification are critical. While quantization maintains performance with reduced precision, structured sparsity methods, such as N:M sparsification, often fall short due to limited flexibility, and sensitivity to outlier weights. We explore 8:16 semi-structured sparsity, demonstrating its ability to surpass the Performance Threshold-where a compressed model matches the accuracy of its uncompressed or smaller counterpart under equivalent memory constraints. Compared to 2:4 sparsity, 8:16 offers greater flexibility with minimal storage overhead (0.875 vs. 0.75 bits/element). We also apply sparse structured patterns for salient weights, showing that structured sparsity for outliers is competitive with unstructured approaches leading to equivalent or better results. Finally, we demonstrate that simple techniques such as variance correction and SmoothQuant like weight equalization improve sparse models performance.