Robust Ultra Low-Bit Post-Training Quantization via Stable Diagonal Curvature Estimate
作者: Jaemin Kim, Sungkyun Kim, Junyeol Lee, Jiwon Seo
分类: cs.LG
发布日期: 2026-04-15
备注: EUROMLSYS 2026
💡 一句话要点
DASH-Q:基于稳定对角曲率估计的鲁棒超低比特后训练量化
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 后训练量化 超低比特量化 大型语言模型 Hessian矩阵 对角近似
📋 核心要点
- 现有基于Hessian的后训练量化方法在极低比特下,由于校准数据有限,Hessian估计噪声大,性能显著下降。
- DASH-Q通过对角Hessian近似和迭代加权最小二乘法,过滤噪声,保留显著特征,实现鲁棒的超低比特量化。
- 实验表明,DASH-Q在超低比特量化下显著优于现有方法,零样本准确率平均提升7.01%,最高提升14.01%。
📝 摘要(中文)
大型语言模型(LLMs)应用广泛,但其规模给部署带来挑战。后训练量化(PTQ)通过利用少量校准数据集来减少内存占用,而无需重新训练。最近基于Hessian矩阵的PTQ方法通过跨通道依赖来补偿量化误差,但由于有限的校准数据导致的噪声曲率估计,这种方法在低比特宽度下性能下降。我们提出了DASH-Q,一个鲁棒的PTQ框架,使用对角Hessian近似和迭代加权最小二乘法。通过丢弃易受噪声影响的依赖关系,DASH-Q过滤采样噪声,同时优先保留显著的特征功率。在超低比特率下,我们优于其他PTQ基线,在五个基线LLM模型上,零样本准确率平均提高了7.01%,最高提高了14.01%,同时在非常小的校准数据下表现出鲁棒和稳定的性能。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在超低比特后训练量化(PTQ)中,由于校准数据有限导致Hessian矩阵估计不准确,进而影响量化性能的问题。现有基于Hessian的PTQ方法依赖于跨通道依赖关系来补偿量化误差,但在低比特宽度下,Hessian矩阵的噪声估计会导致性能显著下降,限制了其在资源受限设备上的部署。
核心思路:DASH-Q的核心思路是通过使用对角Hessian近似来避免噪声较大的跨通道依赖关系,从而提高Hessian估计的稳定性。同时,采用迭代加权最小二乘法,优先保留显著的特征功率,进一步提升量化性能。通过这种方式,DASH-Q能够在超低比特量化下实现更鲁棒和稳定的性能。
技术框架:DASH-Q框架主要包含以下几个阶段:1) 对角Hessian近似:使用对角矩阵近似Hessian矩阵,减少噪声影响。2) 迭代加权最小二乘法:通过迭代的方式,根据特征的重要性对量化误差进行加权,并使用最小二乘法求解量化参数。3) 量化和反量化:使用得到的量化参数对模型进行量化,并在需要时进行反量化。
关键创新:DASH-Q的关键创新在于使用对角Hessian近似来提高Hessian估计的稳定性,并结合迭代加权最小二乘法来优先保留显著特征。与现有方法相比,DASH-Q避免了使用噪声较大的跨通道依赖关系,从而在超低比特量化下实现了更鲁棒的性能。此外,迭代加权最小二乘法能够更好地平衡量化误差和特征重要性,进一步提升了量化效果。
关键设计:DASH-Q的关键设计包括:1) 对角Hessian近似的具体实现方法,例如使用Fisher信息矩阵的对角元素。2) 迭代加权最小二乘法的加权策略,例如根据特征的激活值或梯度来确定权重。3) 迭代的停止条件,例如当量化误差的变化小于某个阈值时停止迭代。4) 校准数据集的大小和选择策略,以确保能够获得具有代表性的数据。
🖼️ 关键图片
📊 实验亮点
DASH-Q在五个基线LLM模型上进行了实验,结果表明,在超低比特量化(例如,2比特和3比特)下,DASH-Q显著优于其他PTQ基线。零样本准确率平均提高了7.01%,最高提高了14.01%。此外,DASH-Q在非常小的校准数据集下也表现出鲁棒和稳定的性能,证明了其在实际应用中的可行性。
🎯 应用场景
DASH-Q适用于资源受限的边缘设备和移动设备上部署大型语言模型,例如智能手机、物联网设备等。通过降低模型大小和计算复杂度,DASH-Q使得这些设备能够运行复杂的AI模型,从而实现更智能化的应用,例如本地化的自然语言处理、语音识别和图像识别等。该研究对于推动AI在边缘计算领域的应用具有重要意义。
📄 摘要(原文)
Large Language Models (LLMs) are widely used across many domains, but their scale makes deployment challenging. Post-Training Quantization (PTQ) reduces memory footprint without retraining by leveraging a small calibration set. Recent Hessian-based PTQ methods compensate quantization error via cross-channel dependencies, but such approaches degrade at low bit-widths due to noisy curvature estimates from limited calibration data. We propose DASH-Q, a robust PTQ framework using diagonal Hessian approximation and iterative weighted least squares. By discarding noise-prone dependencies, DASH-Q filters sampling noise while prioritizing the preservation of salient feature power. We outperform other PTQ baselines in ultra low-bit regime, improving zero-shot accuracy by 7.01% on average and up to 14.01% over the strongest baselines across five baseline LLM models, while showing robust and stable performance with very small calibration data.