BoA: Attention-aware Post-training Quantization without Backpropagation
作者: Junhan Kim, Ho-young Kim, Eulrang Cho, Chungman Lee, Joonyoung Kim, Yongkweon Jeon
分类: cs.LG, cs.AI
发布日期: 2024-06-19 (更新: 2025-06-06)
备注: ICML 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出BoA:一种无需反向传播的注意力感知后训练量化方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 后训练量化 大型语言模型 注意力机制 Hessian矩阵 无反向传播 模型压缩 边缘计算
📋 核心要点
- 现有基于梯度的后训练量化方法在大型语言模型上计算成本过高,无反向传播方法忽略了层间交互。
- 提出一种无需反向传播的后训练量化算法,通过注意力感知的Hessian矩阵捕获层间依赖性,优化量化权重。
- 实验表明,该方法优于现有权重量化方法,并能与传统方法协同抑制激活异常值,达到最佳量化性能。
📝 摘要(中文)
后训练量化(PTQ)是部署大型语言模型(LLM)到资源受限设备上的一个有前景的解决方案。早期为小型网络(如ResNet)开发的方法依赖于基于梯度的优化,这对于具有数十亿参数的超大规模LLM来说变得不切实际。虽然最近提出的无反向传播或基于转换的方法缓解了这个问题,但它们忽略了层间交互或使用朴素的最近邻舍入量化权重分配,以节省权重优化的巨大计算成本。本文提出了一种新的无反向传播PTQ算法,该算法通过考虑层间依赖性来优化量化权重。关键创新是开发了注意力感知的Hessian矩阵,该矩阵捕获注意力模块中的层间交互。大量实验表明,我们的方法不仅优于现有的权重量化方法,而且与抑制激活异常值的传统方法表现出良好的协同作用,从而实现了最先进的权重-激活量化性能。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在资源受限设备上的部署问题,具体而言,是解决后训练量化(PTQ)过程中,传统基于梯度的优化方法计算成本过高,以及现有无反向传播方法忽略层间交互的问题。现有方法的痛点在于无法在计算效率和量化精度之间取得平衡。
核心思路:论文的核心思路是利用注意力机制的特性,通过构建注意力感知的Hessian矩阵来捕捉层间依赖关系,从而在无需反向传播的情况下优化量化权重。这种方法旨在更准确地估计量化误差对模型性能的影响,并据此调整量化参数。
技术框架:整体框架包括以下几个主要步骤:1) 对模型进行前向传播,收集统计信息;2) 构建注意力模块的注意力感知Hessian矩阵,用于估计量化误差的影响;3) 基于Hessian矩阵优化量化权重,选择最佳的量化方案;4) 对量化后的模型进行评估。该框架避免了反向传播,降低了计算复杂度。
关键创新:最重要的技术创新点在于提出了注意力感知的Hessian矩阵,用于捕获注意力模块中的层间交互。与现有方法相比,该方法能够更准确地估计量化误差对模型性能的影响,从而实现更有效的量化。现有方法要么忽略层间依赖,要么使用简单的最近邻舍入,而BoA则考虑了层间交互的影响。
关键设计:关键设计包括:1) Hessian矩阵的构建方式,如何利用注意力权重计算层间依赖性;2) 量化权重的优化策略,如何基于Hessian矩阵选择最佳的量化方案;3) 如何将该方法与其他激活量化方法结合,以进一步提高量化性能。具体的参数设置和损失函数细节需要在论文中进一步查找。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BoA方法在权重量化方面优于现有的方法。更重要的是,BoA可以与现有的激活量化方法结合,进一步提升量化性能,达到state-of-the-art的水平。具体的性能提升数据需要在论文中进一步查找,例如在特定数据集上的精度提升百分比。
🎯 应用场景
该研究成果可广泛应用于大型语言模型在边缘设备、移动设备等资源受限环境中的部署。通过高效的后训练量化,降低模型大小和计算复杂度,从而使LLM能够在更多场景下应用,例如智能助手、移动翻译、本地知识库等,具有重要的实际应用价值和商业前景。
📄 摘要(原文)
Post-training quantization (PTQ) is a promising solution for deploying large language models (LLMs) on resource-constrained devices. Early methods developed for small-scale networks, such as ResNet, rely on gradient-based optimization, which becomes impractical for hyper-scale LLMs with billions of parameters. While recently proposed backpropagation-free or transformation-based methods alleviate this issue, they ignore inter-layer interactions or use the naive nearest-rounding-based quantized weight assignment to save the heavy computational cost of weight optimization. In this paper, we introduce a novel backpropagation-free PTQ algorithm that optimizes quantized weights by considering inter-layer dependencies. The key innovation is the development of attention-aware Hessian matrices that capture inter-layer interactions within the attention module. Extensive experiments demonstrate that our approach not only outperforms existing weight quantization methods but also shows good synergy with conventional methods to suppress activation outliers, leading to state-of-the-art weight-activation quantization performance. The code will be available at https://github.com/SamsungLabs/BoA.