Beyond 2:4: exploring V:N:M sparsity for efficient transformer inference on GPUs
作者: Kang Zhao, Tao Yuan, Han Bao, Zhenfeng Su, Chang Gao, Zhaofeng Sun, Zichen Liang, Liping Jing, Jianfei Chen
分类: cs.LG, cs.AI
发布日期: 2024-10-21 (更新: 2025-06-03)
💡 一句话要点
探索V:N:M稀疏性,加速GPU上Transformer模型推理,实现精度与效率的平衡。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: V:N:M稀疏性 Transformer模型 GPU加速 模型压缩 大型语言模型
📋 核心要点
- 现有2:4稀疏性加速Transformer在GPU上受限,加速效果有限且稀疏比例固定,无法充分利用更高稀疏度。
- 提出启发式V和M选择、通道置换和三阶段LoRA训练等方法,提升V:N:M稀疏Transformer的精度和适用性。
- 实验表明,改进后的V:N:M稀疏Transformer在视觉模型和LLM上实现了精度保持或提升,并提供了更灵活的加速-精度权衡。
📝 摘要(中文)
当前,2:4稀疏性是唯一能在GPU上通过稀疏张量核心加速的模式。然而,2:4稀疏性实际加速效果通常较低(≤1.3倍),且需要固定的稀疏比例,导致其他比例(如4:8、8:16或超过50%的稀疏性)无法在GPU上加速。V:N:M稀疏性有望解决2:4稀疏性的这些局限。但V:N:M稀疏性对视觉Transformer和大型语言模型(LLM)等更广泛Transformer模型的影响尚不明确,且V和M值的选择等问题仍未解决。本研究深入探讨了V:N:M稀疏性在视觉模型和LLM中的应用,涵盖预训练和下游任务。我们提出了三种关键方法来增强V:N:M稀疏Transformer的适用性和准确性,包括启发式V和M选择、V:N:M特定的通道置换和三阶段LoRA训练技术。实验结果表明,使用我们的方法,DeiT-small在64:2:5稀疏性下实现了无损精度,而DeiT-base在64:2:8稀疏性下保持了精度。此外,在64:2:5稀疏性下微调的LLama2-7B在下游任务上的表现与免训练的2:4稀疏替代方案相当或更好。更重要的是,V:N:M稀疏Transformer提供了比2:4稀疏性更广泛的加速-精度权衡。总的来说,我们的探索极大地促进了V:N:M稀疏性成为成本敏感型推理场景中Transformer的真正有效的加速解决方案。
🔬 方法详解
问题定义:论文旨在解决Transformer模型在GPU上推理时,2:4稀疏性加速效果有限且灵活性不足的问题。现有2:4稀疏性加速方案依赖于特定的硬件支持,且稀疏比例固定,无法充分利用更高稀疏度带来的潜在加速收益。此外,对于视觉Transformer和LLM等更广泛的模型,V:N:M稀疏性的影响尚不明确。
核心思路:论文的核心思路是探索V:N:M稀疏性在Transformer模型中的应用,并提出一系列方法来提升其精度和适用性。通过灵活选择V和M的值,可以实现更高的稀疏度,从而获得更大的加速潜力。同时,通过通道置换和LoRA训练等技术,可以缓解稀疏性引入的精度损失。
技术框架:论文的技术框架主要包括三个部分:启发式V和M选择、V:N:M特定的通道置换和三阶段LoRA训练。首先,通过启发式方法选择合适的V和M值,以平衡稀疏度和精度。然后,针对V:N:M稀疏性,设计特定的通道置换策略,以优化数据局部性,提升硬件加速效率。最后,采用三阶段LoRA训练方法,逐步恢复稀疏化带来的精度损失。
关键创新:论文的关键创新在于探索了V:N:M稀疏性在Transformer模型中的应用,并提出了一系列针对性的优化方法。与传统的2:4稀疏性相比,V:N:M稀疏性具有更高的灵活性,可以实现更高的稀疏度,从而获得更大的加速潜力。此外,论文提出的通道置换和LoRA训练等技术,可以有效缓解稀疏性引入的精度损失。
关键设计:启发式V和M选择方法基于对模型参数分布的分析,选择能够最大程度保留重要信息的V和M值。通道置换策略旨在将非零元素聚集在一起,以提高硬件加速效率。三阶段LoRA训练包括:1)预热阶段,使用少量数据进行LoRA训练;2)稀疏化阶段,引入V:N:M稀疏性;3)微调阶段,使用更多数据进行LoRA微调,以恢复精度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在DeiT-small模型上,使用64:2:5稀疏性可以实现无损精度;在DeiT-base模型上,使用64:2:8稀疏性可以保持精度。此外,在LLama2-7B模型上,使用64:2:5稀疏性进行微调后,在下游任务上的表现与免训练的2:4稀疏替代方案相当或更好。V:N:M稀疏Transformer提供了比2:4稀疏性更广泛的加速-精度权衡。
🎯 应用场景
该研究成果可广泛应用于对推理速度和成本有较高要求的场景,如移动设备上的视觉任务、边缘计算环境中的自然语言处理等。通过V:N:M稀疏性,可以在保证模型精度的前提下,显著降低计算量和内存占用,从而实现更高效的部署和应用。未来,该技术有望推动AI在资源受限环境中的普及。
📄 摘要(原文)
To date, 2:4 sparsity has stood as the only sparse pattern that can be accelerated using sparse tensor cores on GPUs. In practice, 2:4 sparsity often possesses low actual speedups ($\leq 1.3$) and requires fixed sparse ratios, meaning that other ratios, such as 4:8, 8:16, or those exceeding 50% sparsity, do not incur any speedups on GPUs. Recent studies suggest that V:N:M sparsity is promising in addressing these limitations of 2:4 sparsity. However, regarding accuracy, the effects of V:N:M sparsity on broader Transformer models, such as vision Transformers and large language models (LLMs), are largely unexamined. Moreover, Some specific issues related to V:N:M sparsity, such as how to select appropriate V and M values, remain unresolved. In this study, we thoroughly investigate the application of V:N:M sparsity in vision models and LLMs across multiple tasks, from pertaining to downstream tasks. We propose three key approaches to enhance the applicability and accuracy of V:N:M-sparse Transformers, including heuristic V and M selection, V:N:M-specific channel permutation, and three-staged LoRA training techniques. Experimental results show that, with our methods, the DeiT-small achieves lossless accuracy at 64:2:5 sparsity, while the DeiT-base maintains accuracy even at 64:2:8 sparsity. In addition, the fine-tuned LLama2-7B at 64:2:5 sparsity performs comparably or better than training-free 2:4 sparse alternatives on downstream tasks. More importantly, V:N:M-sparse Transformers offer a wider range of speedup-accuracy trade-offs compared to 2:4 sparsity. Overall, our exploration largely facilitates the V:N:M sparsity to act as a truly effective acceleration solution for Transformers in cost-sensitive inference scenarios.