OATS: Outlier-Aware Pruning Through Sparse and Low Rank Decomposition
作者: Stephen Zhang, Vardan Papyan
分类: cs.LG, cs.AI
发布日期: 2024-09-20 (更新: 2025-05-20)
💡 一句话要点
OATS:通过稀疏低秩分解实现异常值感知的模型剪枝
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 模型剪枝 稀疏低秩分解 Transformer 异常值感知 模型压缩
📋 核心要点
- 现有模型剪枝方法在提高压缩率时,模型性能会显著下降,无法兼顾压缩效率和模型精度。
- OATS方法利用输入嵌入的二阶矩信息,将模型权重分解为稀疏和低秩矩阵,从而实现更有效的剪枝。
- 实验表明,OATS在大型语言模型和视觉Transformer上实现了最先进的压缩性能,并显著提升了CPU加速效果。
📝 摘要(中文)
大规模基础模型的兴起为深度学习带来了新纪元,但在实践中也面临着高内存消耗和计算成本等问题。为了缓解这些问题,后训练神经网络剪枝技术成为研究热点,它无需耗时的重新训练。尽管取得了显著进展,但现有方法通常在压缩率提高时会遇到模型性能的稳定下降。本文提出了一种名为OATS的压缩大型Transformer的新方法,该方法利用输入嵌入中的二阶矩信息将模型权重分解为稀疏和低秩矩阵的和。在没有任何重新训练的情况下,OATS在压缩Llama-3和Phi-3等大型语言模型以及ViT和DINOv2等视觉Transformer高达60%时,实现了最先进的性能,并且与同等剪枝的模型相比,CPU加速高达1.37倍。
🔬 方法详解
问题定义:论文旨在解决大型Transformer模型在部署时面临的计算资源和内存限制问题。现有的剪枝方法在大幅压缩模型时,往往会导致显著的性能下降,无法在压缩率和模型精度之间取得良好的平衡。
核心思路:OATS的核心思想是利用输入嵌入的二阶矩信息,将模型权重分解为稀疏矩阵和低秩矩阵之和。稀疏矩阵负责处理模型中的异常值,而低秩矩阵则捕捉模型中的主要结构。通过这种分解,可以更精确地识别和移除冗余的权重,从而在不显著降低模型性能的情况下实现更高的压缩率。
技术框架:OATS方法主要包含以下几个步骤:1) 计算输入嵌入的二阶矩信息;2) 利用二阶矩信息将模型权重分解为稀疏矩阵和低秩矩阵;3) 对稀疏矩阵和低秩矩阵进行剪枝,移除冗余的权重;4) 对剪枝后的模型进行微调(可选),以进一步提高模型性能。
关键创新:OATS的关键创新在于其异常值感知的剪枝策略。通过将模型权重分解为稀疏和低秩矩阵,OATS能够更好地识别和处理模型中的异常值,从而避免了传统剪枝方法中因移除重要权重而导致的性能下降。此外,OATS方法无需重新训练,降低了剪枝的计算成本。
关键设计:OATS方法中的关键设计包括:1) 如何有效地计算输入嵌入的二阶矩信息;2) 如何选择合适的稀疏度和秩,以平衡压缩率和模型精度;3) 如何对稀疏矩阵和低秩矩阵进行剪枝,以最大程度地减少性能损失。论文中可能还涉及了特定的损失函数或正则化项,用于指导稀疏和低秩分解的过程。
🖼️ 关键图片
📊 实验亮点
OATS在Llama-3和Phi-3等大型语言模型以及ViT和DINOv2等视觉Transformer上进行了实验,结果表明,在压缩率高达60%的情况下,OATS实现了最先进的性能。与同等剪枝的模型相比,OATS的CPU加速高达1.37倍。这些结果表明,OATS是一种有效的模型剪枝方法,可以在不显著降低模型性能的情况下实现更高的压缩率和更快的推理速度。
🎯 应用场景
OATS方法可广泛应用于各种需要部署大型Transformer模型的场景,如移动设备、边缘计算设备和资源受限的服务器。通过降低模型的计算复杂度和内存占用,OATS可以显著提高模型的推理速度和部署效率,从而为用户提供更好的体验。此外,OATS还可以用于模型压缩和知识蒸馏等任务,以进一步提高模型的性能和泛化能力。
📄 摘要(原文)
The recent paradigm shift to large-scale foundation models has brought about a new era for deep learning that, while has found great success in practice, has also been plagued by prohibitively expensive costs in terms of high memory consumption and compute. To mitigate these issues, there has been a concerted effort in post-hoc neural network pruning techniques that do not require costly retraining. Despite the considerable progress being made, existing methods often exhibit a steady drop in model performance as the compression increases. In this paper, we present a novel approach to compressing large transformers, coined OATS, that utilizes the second moment information in the input embeddings to decompose the model weights into a sum of sparse and low-rank matrices. Without any retraining, OATS achieves state-of-the-art performance when compressing models by up to $60\%$ on large language models such as Llama-3 and Phi-3 and vision transformers such as ViT and DINOv2 while delivering up to $1.37\times$ the CPU acceleration versus a model that was comparably pruned.