Gradual Binary Search and Dimension Expansion : A general method for activation quantization in LLMs

📄 arXiv: 2504.13989v2 📥 PDF

作者: Lucas Maisonnave, Cyril Moineau, Olivier Bichler, Fabrice Rastello

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-04-18 (更新: 2025-05-13)


💡 一句话要点

提出基于梯度二分搜索和维度扩展的量化方法,实现LLM激活的低比特量化。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 量化 低比特量化 Hadamard矩阵 梯度二分搜索 模型压缩 边缘计算

📋 核心要点

  1. LLM部署受限于模型体积,量化是有效压缩手段,但激活中的异常值阻碍了低比特量化。
  2. 利用Hadamard矩阵优于随机旋转矩阵的特性,减少激活中的异常值,实现更低比特量化。
  3. 通过梯度二分搜索实现权重、激活和KV缓存的3比特量化,并在多个模型上验证了有效性。

📝 摘要(中文)

大型语言模型(LLM)在人工智能领域占据重要地位,展现出强大的推理、理解和生成能力。然而,由于模型参数规模庞大(通常达到数十亿),在边缘设备上的部署受到限制。量化是一种常用的减少内存占用和推理时间的方法,但LLM激活中普遍存在异常值,这带来了独特的挑战。本文利用Hadamard矩阵在减少异常值方面的理论优势,突破了LLM量化的界限。研究表明,Hadamard矩阵比随机旋转矩阵更有效地减少异常值,这对于实现低比特量化至关重要。该方法基于梯度二分搜索,实现了权重、激活和键值(KV)缓存的3比特量化,在常见基准测试中,准确率比现有最佳方法提高了40%。通过使用Paley算法,扩展了旋转矩阵的使用,以支持非2的幂次的嵌入维度,类似于Qwen架构。理论上证明了Hadamard矩阵在减少异常值方面的优越性。在Mistral、LLaMA和Qwen等多个模型系列上的实验结果表明,该方法优于现有方法,并实现了实用的3比特量化。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在边缘设备部署时面临的内存占用和推理速度问题。现有的量化方法在LLM上表现不佳,主要原因是LLM激活中存在大量的异常值,这些异常值使得低比特量化难以保持模型精度。

核心思路:论文的核心思路是利用Hadamard矩阵的特性来减少激活中的异常值。Hadamard矩阵在特定条件下能够更有效地将能量分散到各个维度,从而降低最大激活值的幅度,使得量化过程更加鲁棒。此外,论文还采用了梯度二分搜索的方法来优化量化参数。

技术框架:整体框架包含以下几个主要步骤:1) 使用Hadamard矩阵或其变体(如Paley构造的矩阵)对激活进行预处理,以减少异常值;2) 使用梯度二分搜索算法来确定最佳的量化参数,例如量化范围和量化步长;3) 对权重、激活和KV缓存进行3比特量化;4) 在多个LLM模型上进行实验验证。

关键创新:最重要的技术创新点在于将Hadamard矩阵应用于LLM的激活量化,并结合梯度二分搜索算法进行优化。与传统的随机旋转矩阵相比,Hadamard矩阵在减少异常值方面具有理论优势,并且可以通过Paley算法扩展到非2的幂次的维度,从而支持更广泛的模型架构。

关键设计:梯度二分搜索算法用于寻找最佳的量化参数,例如量化范围和量化步长。具体来说,算法首先确定一个初始的量化范围,然后通过二分搜索不断缩小范围,直到找到一个能够最大程度地保持模型精度的量化参数。此外,论文还采用了特定的量化策略,例如对称量化或非对称量化,以适应不同类型的激活分布。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在Mistral、LLaMA和Qwen等多个LLM模型上进行了实验验证,结果表明,与现有最佳方法相比,该方法能够实现更高的量化精度。具体来说,该方法实现了权重、激活和KV缓存的3比特量化,并在常见基准测试中,准确率比现有最佳方法提高了40%。这些结果表明,该方法是一种有效的LLM量化方法。

🎯 应用场景

该研究成果可广泛应用于边缘设备的LLM部署,例如智能手机、物联网设备和嵌入式系统。通过降低模型大小和提高推理速度,可以使这些设备能够运行更复杂的AI应用,例如本地化的自然语言处理、语音识别和图像理解。此外,该方法还可以应用于云计算环境,以降低LLM的部署成本和提高资源利用率。

📄 摘要(原文)

Large language models (LLMs) have become pivotal in artificial intelligence, demonstrating strong capabilities in reasoning, understanding, and generating data. However, their deployment on edge devices is hindered by their substantial size, often reaching several billion parameters. Quantization is a widely used method to reduce memory usage and inference time, however LLMs present unique challenges due to the prevalence of outliers in their activations. In this work, we leverage the theoretical advantages of Hadamard matrices over random rotation matrices to push the boundaries of quantization in LLMs. We demonstrate that Hadamard matrices are more effective in reducing outliers, which are a significant obstacle in achieving low-bit quantization. Our method based on a gradual binary search enables 3-bit quantization for weights, activations, and key-value (KV) caches, resulting in a 40% increase in accuracy on common benchmarks compared to SoTA methods. We extend the use of rotation matrices to support non-power-of-2 embedding dimensions, similar to the Qwen architecture, by employing the Paley algorithm. We theoretically demonstrates the superiority of Hadamard matrices in reducing outliers.We achieved 3-bit quantization for weights, activations, and KV cache, significantly enhancing model performance. Our experimental results on multiple models family like Mistral, LLaMA, and Qwen demonstrate the effectiveness of our approach, outperforming existing methods and enabling practical 3-bit quantization.