Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs
作者: Hang Guo, Yawei Li, Luca Benini
分类: cs.CL
发布日期: 2025-09-14 (更新: 2025-09-16)
备注: Preprint
💡 一句话要点
提出Optimal Brain Restoration,解决LLM量化与稀疏化联合压缩难题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型压缩 量化 稀疏化 剪枝 误差补偿 Hessian矩阵 模型优化
📋 核心要点
- 现有LLM压缩方法,如量化和剪枝,各自逼近性能极限,单一方法难以进一步提升压缩率。
- 论文提出Optimal Brain Restoration (OBR)框架,通过误差补偿对齐量化和剪枝,实现联合优化。
- 实验表明,OBR在LLM上实现了W4A4KV4量化和50%稀疏性,显著提升速度并减少内存占用。
📝 摘要(中文)
本文提出了一种针对大型语言模型(LLM)压缩的联合量化和稀疏化方法。由于量化偏好紧凑的权重范围,而剪枝受益于高方差,这两种技术对权重分布的要求存在内在冲突,使得联合使用面临挑战。为此,作者提出了Optimal Brain Restoration (OBR) 框架,该框架无需训练,通过误差补偿对齐剪枝和量化。OBR基于二阶Hessian目标最小化下游任务的性能下降,并通过代理近似将其转化为易于处理的问题,最终通过组误差补偿获得闭式解。实验表明,OBR能够在现有LLM上实现激进的W4A4KV4量化和50%的稀疏性,与FP16密集基线相比,速度提升高达4.72倍,内存减少6.4倍。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)联合量化和稀疏化的问题。现有的量化和稀疏化方法在单独使用时已经接近性能瓶颈。联合使用时,量化倾向于压缩权重范围,而稀疏化(剪枝)则需要权重具有较高的方差,这两种需求相互冲突,导致性能下降。
核心思路:论文的核心思路是通过误差补偿来对齐量化和稀疏化。具体来说,OBR框架旨在恢复由于量化和剪枝操作而损失的性能。通过最小化量化和剪枝引入的误差,使得模型在压缩的同时尽可能保持原始性能。这种方法避免了直接优化量化和剪枝的权重分布,而是关注于误差的补偿。
技术框架:OBR框架主要包含以下几个阶段:1) 基于二阶Hessian信息构建目标函数,该目标函数旨在最小化量化和剪枝带来的性能损失。2) 使用代理近似将复杂的Hessian目标函数转化为易于处理的形式。3) 通过组误差补偿方法,求解一个闭式解,从而确定如何恢复权重以补偿量化和剪枝带来的误差。整个框架无需训练,可以在压缩后直接应用。
关键创新:OBR的关键创新在于其误差补偿机制。与传统的量化和剪枝方法不同,OBR不是直接优化权重分布,而是通过最小化误差来恢复性能。此外,OBR利用二阶Hessian信息来更准确地估计量化和剪枝对性能的影响,从而实现更有效的误差补偿。这种基于误差补偿的思路为联合量化和稀疏化提供了一种新的解决方案。
关键设计:OBR的关键设计包括:1) 使用二阶Hessian信息来构建目标函数,这需要计算或估计Hessian矩阵。2) 使用代理近似来简化Hessian目标函数,使其易于求解。3) 采用组误差补偿方法,将权重分组,并对每组权重进行误差补偿。具体的参数设置包括Hessian矩阵的计算方法、代理近似的具体形式以及分组策略等。损失函数是基于Hessian信息构建的,旨在最小化量化和剪枝带来的性能损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,OBR框架能够在现有LLM上实现W4A4KV4量化和50%的稀疏性,与FP16密集基线相比,速度提升高达4.72倍,内存减少6.4倍。这些结果表明OBR在LLM压缩方面具有显著的优势,能够有效地降低模型的存储和计算成本,同时保持较高的性能。
🎯 应用场景
该研究成果可广泛应用于资源受限的设备上部署大型语言模型,例如移动设备、嵌入式系统等。通过联合量化和稀疏化,可以显著降低模型的存储空间和计算复杂度,从而使得这些设备能够运行更大规模的LLM,提升用户体验。此外,该技术还可以应用于云计算平台,降低LLM的部署成本,提高资源利用率。
📄 摘要(原文)
Recent advances in Large Language Model (LLM) compression, such as quantization and pruning, have achieved notable success. However, as these techniques gradually approach their respective limits, relying on a single method for further compression has become increasingly challenging. In this work, we explore an alternative solution by combining quantization and sparsity. This joint approach, though promising, introduces new difficulties due to the inherently conflicting requirements on weight distributions: quantization favors compact ranges, while pruning benefits from high variance. To attack this problem, we propose Optimal Brain Restoration (OBR), a general and training-free framework that aligns pruning and quantization by error compensation between both. OBR minimizes performance degradation on downstream tasks by building on a second-order Hessian objective, which is then reformulated into a tractable problem through surrogate approximation and ultimately reaches a closed-form solution via group error compensation. Experiments show that OBR enables aggressive W4A4KV4 quantization with 50% sparsity on existing LLMs, and delivers up to 4.72x speedup and 6.4x memory reduction compared to the FP16-dense baseline.