SDQ: Sparse Decomposed Quantization for LLM Inference

📄 arXiv: 2406.13868v1 📥 PDF

作者: Geonhwa Jeong, Po-An Tsai, Stephen W. Keckler, Tushar Krishna

分类: cs.LG, cs.AI

发布日期: 2024-06-19

备注: Preprint


💡 一句话要点

提出SDQ:一种稀疏分解量化方法,用于加速LLM推理并降低内存占用。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型压缩 稀疏化 量化 推理加速

📋 核心要点

  1. 大型语言模型参数规模巨大,导致计算和内存需求高昂,限制了其广泛部署。
  2. SDQ方法结合结构化稀疏性和量化,旨在提升计算效率并降低内存占用。
  3. 实验表明,SDQ能够在质量损失小于1%的情况下,实现4倍的有效计算吞吐量。

📝 摘要(中文)

近年来,大型语言模型(LLMs)在特定任务和通用任务中表现出惊人的性能。然而,为了实现前所未有的性能,LLMs使用了数十亿到数万亿的参数,这由于其极大的计算和内存需求,阻碍了这些模型的广泛应用。为了解决这个问题,各种模型压缩方法正在被积极研究。本文提出了一种稀疏分解量化(SDQ)方法,该方法同时利用结构化稀疏性和量化来实现高计算和内存效率。评估结果表明,SDQ可以实现4倍的有效计算吞吐量,而质量损失小于1%。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)推理过程中计算量大和内存需求高的问题。现有方法在压缩模型时,往往难以在计算效率、内存占用和模型精度之间取得平衡。

核心思路:SDQ的核心思路是同时利用结构化稀疏性和量化技术。结构化稀疏性通过移除模型中不重要的连接来减少计算量,而量化则通过降低模型参数的精度来减少内存占用。将二者结合,可以在保证模型精度的前提下,显著提升计算效率和降低内存需求。

技术框架:SDQ方法包含以下几个主要步骤:首先,对LLM进行结构化稀疏化,移除冗余连接。然后,对稀疏化后的模型进行分解,将其分解为多个子矩阵。最后,对这些子矩阵进行量化,降低参数精度。推理时,利用稀疏矩阵乘法和量化计算加速计算过程。

关键创新:SDQ的关键创新在于将结构化稀疏性和分解量化结合起来。与传统的量化方法相比,SDQ利用稀疏性进一步减少了计算量。与传统的稀疏化方法相比,SDQ利用量化进一步降低了内存占用。这种结合使得SDQ能够在计算效率和内存占用方面取得更好的平衡。

关键设计:论文中可能涉及的关键设计包括:稀疏化的具体策略(例如,基于权值大小的剪枝),分解子矩阵的方式(例如,均匀分解或基于奇异值分解),量化的比特数和量化方法(例如,线性量化或非线性量化),以及稀疏矩阵乘法的优化实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SDQ方法能够在保证模型质量损失小于1%的情况下,实现4倍的有效计算吞吐量提升。这意味着SDQ可以在相同的硬件资源下,处理更多的推理请求,或者在相同的推理负载下,降低硬件成本。具体的实验设置、数据集和对比基线(例如,未压缩的模型、仅稀疏化的模型、仅量化的模型)等信息未知。

🎯 应用场景

SDQ方法可应用于各种需要高性能和低内存占用的LLM推理场景,例如移动设备、边缘计算设备和资源受限的服务器。通过降低LLM的计算和内存需求,SDQ可以促进LLM在更广泛的应用场景中的部署,例如智能助手、自然语言处理和机器翻译等。

📄 摘要(原文)

Recently, large language models (LLMs) have shown surprising performance in task-specific workloads as well as general tasks with the given prompts. However, to achieve unprecedented performance, recent LLMs use billions to trillions of parameters, which hinder the wide adaptation of those models due to their extremely large compute and memory requirements. To resolve the issue, various model compression methods are being actively investigated. In this work, we propose SDQ (Sparse Decomposed Quantization) to exploit both structured sparsity and quantization to achieve both high compute and memory efficiency. From our evaluations, we observe that SDQ can achieve 4x effective compute throughput with <1% quality drop.