MARR: Module-Adaptive Residual Reconstruction for Low-Bit Post-Training Quantization
作者: Le Su, Xing Luo, Zhi Jin
分类: cs.LG, cs.AI, cs.CV
发布日期: 2026-05-18
💡 一句话要点
提出模块自适应残差重构(MARR)方法,提升低比特后训练量化性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 后训练量化 低比特量化 残差重构 模型压缩 Hessian近似 自适应调整 大型语言模型 视觉Transformer
📋 核心要点
- 现有基于残差重构的量化方法在低比特量化中表现良好,但Hessian近似引入的偏差会影响性能。
- MARR方法通过为每个模块分配自适应缩放系数,平衡累积误差校正和残差相关的Hessian近似偏差。
- 实验表明,MARR在LLM和ViT上均优于现有残差重构方法,分别实现了高达20.2%和4.6%的性能提升。
📝 摘要(中文)
本文提出了一种模块自适应残差重构(MARR)方法,用于提升低比特后训练量化(PTQ)的性能。现有的基于残差重构的量化方法通过引入跨层残差来减少先前层累积的误差,从而在低比特PTQ中取得了有希望的性能。然而,这些残差也可能引入额外的偏差,这些偏差源于重构PTQ中使用的Hessian近似(HA)假设,导致次优的量化性能。本文分析表明,将残差项乘以一个缩放系数可以直接缓解与残差强度相关的HA偏差,同时保留累积误差校正。更重要的是,我们观察到这种权衡是模块相关的,使得单个全局残差强度不足以平衡跨模块的有效校正和残差相关偏差。基于这些观察,我们提出了模块自适应残差重构(MARR),它为每个模块分配一个模块特定的缩放系数,以自适应地平衡累积误差校正和残差相关的HA偏差。为了避免昂贵的每模块系数搜索并获得稳定的系数估计,我们设计了一种基于比例-积分-微分(PID)的自适应更新策略,该策略使用重构误差作为反馈来逐步细化该系数。在几个典型的大型语言模型(LLM)和视觉Transformer(ViT)上的实验表明,MARR在低比特量化(小于等于4比特)下是有效的,在LLM上实现了高达20.2%的性能提升,在ViT上实现了高达4.6%的相对增益,超过了最先进的残差重构方法。代码将在接受后公开发布。
🔬 方法详解
问题定义:现有基于残差重构的后训练量化方法,虽然通过引入跨层残差来减少量化误差,但残差引入的Hessian近似偏差会影响最终的量化性能,导致次优结果。现有方法缺乏对不同模块残差强度的自适应调整机制。
核心思路:核心在于通过引入模块特定的缩放系数来平衡残差带来的误差校正和Hessian近似偏差。核心思想是不同模块对残差的需求不同,因此需要自适应地调整每个模块的残差强度,从而达到最佳的量化效果。
技术框架:MARR方法的核心框架包括:1) 为每个模块分配一个可学习的缩放系数;2) 使用比例-积分-微分(PID)控制器来动态调整这些系数,PID控制器的输入是重构误差,目标是最小化重构误差;3) 将调整后的残差添加到量化后的层输出中,以进行误差校正。
关键创新:关键创新在于提出了模块自适应的残差缩放系数,并使用PID控制器进行动态调整。与现有方法使用全局统一的残差强度不同,MARR能够根据每个模块的特性自适应地调整残差强度,从而更好地平衡误差校正和Hessian近似偏差。
关键设计:PID控制器的设计是关键。PID控制器的输入是重构误差,输出是缩放系数的调整量。PID参数(比例、积分、微分系数)需要仔细调整,以保证缩放系数的稳定性和收敛速度。损失函数主要关注重构误差,目标是最小化量化后的模型输出与原始模型输出之间的差异。
🖼️ 关键图片
📊 实验亮点
MARR方法在大型语言模型(LLM)和视觉Transformer(ViT)上进行了实验验证。在LLM上,MARR实现了高达20.2%的性能提升,在ViT上实现了高达4.6%的相对增益,显著优于现有的残差重构方法。这些结果表明MARR在低比特量化方面具有显著优势。
🎯 应用场景
该研究成果可应用于各种需要低比特量化的场景,例如移动设备上的模型部署、边缘计算等。通过降低模型大小和计算复杂度,可以实现更高效的模型推理,从而提升用户体验和降低硬件成本。该方法尤其适用于大型语言模型和视觉Transformer等计算密集型模型。
📄 摘要(原文)
Recently, residual reconstruction-based model quantization methods have achieved promising performance in low-bit post-training quantization (PTQ) by introducing cross-layer residuals to reduce error accumulated from previous layers.However, these residuals may also introduce additional bias arising from the Hessian-approximation (HA) assumption underlying reconstruction-based PTQ, leading to suboptimal quantization performance.In this work, we analyze that multiplying the residual term by a scaling coefficient provides a direct way to mitigate the HA bias associated with residual strength, while preserving accumulated-error correction. More importantly, we observe that this trade-off is module-dependent, making a single global residual strength insufficient to balance effective correction and residual-related bias across modules.Based on these observations, we propose Module-Adaptive Residual Reconstruction (MARR), which assigns a module-specific scaling coefficient to adaptively balance accumulated-error correction and residual-related HA bias for each module.To avoid expensive per-module coefficient search and obtain a stable coefficient estimate, we design a Proportional-Integral-Derivative (PID)-based adaptive update strategy that uses reconstruction error as feedback to progressively refine this coefficient. Experiments on several typical large language models (LLMs) and vision transformers (ViTs) demonstrate the effectiveness of MARR under low-bit quantization (less than or equal to 4-bit), achieving up to 20.2% performance gains on LLMs and up to 4.6% relative gains on ViTs over the residual reconstruction state-of-the-art methods.Code will be made publicly available upon acceptance.