On the Importance of a Multi-Scale Calibration for Quantization

作者: Seungwoo Son, Ingyu Seong, Junhan Kim, Hyemi Jang, Yongkweon Jeon

分类: cs.LG, cs.CL

发布日期: 2026-02-07

备注: ICASSP 2026

💡 一句话要点

提出MaCa：一种多尺度校准方法，提升LLM量化在变长输入下的精度。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 后训练量化 大型语言模型 多尺度校准 Hessian矩阵 模型压缩

📋 核心要点

现有PTQ方法在LLM量化中依赖固定长度校准集，忽略了LLM输入长度可变的特性，导致量化性能下降。
MaCa方法通过将多尺度序列长度信息融入Hessian估计，并正则化每个序列，从而构建更稳定的Hessian矩阵。
实验结果表明，MaCa在Qwen3、Gemma3、LLaMA3等模型上，显著提升了低比特量化精度，且易于集成。

📝 摘要（中文）

后训练量化(PTQ)是高效部署大型语言模型(LLM)的基石，其中小规模校准集对量化性能至关重要。然而，传统方法依赖于固定长度的随机序列，忽略了LLM输入的可变长度特性。输入长度直接影响激活分布，进而影响Hessian矩阵所捕获的权重重要性，最终影响量化结果。因此，从固定长度校准集导出的Hessian估计可能无法代表各种输入场景下权重的真实重要性。我们提出了MaCa（Matryoshka Calibration），一种简单而有效的长度感知Hessian构建方法。MaCa (i) 将多尺度序列长度信息纳入Hessian估计，并且 (ii) 将每个序列正则化为独立样本，从而产生更稳定和有效的Hessian，以实现准确的量化。在最先进的LLM（例如，Qwen3、Gemma3、LLaMA3）上的实验表明，MaCa在低比特量化下始终提高精度，提供了一种与现有PTQ框架兼容的轻量级增强。据我们所知，这是第一项系统地强调多尺度校准在LLM量化中的作用的工作。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）后训练量化（PTQ）中，由于校准集长度单一，无法准确估计权重重要性，导致量化精度下降的问题。现有方法通常使用固定长度的随机序列作为校准集，忽略了LLM输入长度的多样性，使得基于Hessian矩阵的权重重要性估计存在偏差。

核心思路：论文的核心思路是提出一种多尺度校准方法（MaCa），通过在Hessian矩阵构建过程中，考虑不同长度的输入序列，从而更准确地捕捉权重在不同输入长度下的重要性。MaCa通过引入多尺度序列长度信息，并对每个序列进行正则化，来提高Hessian矩阵的稳定性和有效性，最终提升量化精度。

技术框架：MaCa方法主要包含两个关键步骤：(1) 多尺度Hessian估计：使用不同长度的输入序列计算Hessian矩阵，从而捕捉不同输入长度下的权重重要性。(2) 序列正则化：将每个输入序列视为独立的样本，通过正则化方法提高Hessian矩阵的稳定性。该方法可以与现有的PTQ框架无缝集成，作为一个预处理步骤，用于生成更准确的Hessian矩阵。

关键创新：论文的关键创新在于提出了多尺度校准的概念，并将其应用于Hessian矩阵的构建过程中。与现有方法只使用固定长度的输入序列不同，MaCa方法能够更好地适应LLM输入长度的多样性，从而更准确地估计权重的重要性。这是首次系统性地研究多尺度校准在LLM量化中的作用。

关键设计：MaCa的关键设计包括：(1) 多尺度序列长度的选择：需要根据具体的LLM和应用场景，选择合适的序列长度范围和采样策略。(2) Hessian矩阵的计算方法：可以使用不同的Hessian近似方法，例如Fisher信息矩阵或二阶梯度信息。(3) 序列正则化的方法：可以使用L1或L2正则化，或者其他更高级的正则化技术，以提高Hessian矩阵的稳定性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MaCa方法在Qwen3、Gemma3和LLaMA3等先进LLM上，显著提升了低比特量化精度。例如，在某些模型和数据集上，MaCa能够将量化后的模型性能提升1-2个百分点，优于现有的PTQ方法。这些结果证明了MaCa方法在LLM量化中的有效性和优越性。

🎯 应用场景

该研究成果可广泛应用于大型语言模型的压缩和加速，尤其是在资源受限的设备上部署LLM。通过提高量化精度，MaCa方法能够降低模型大小和计算复杂度，从而实现更高效的LLM推理。这对于移动设备、嵌入式系统和边缘计算等场景具有重要意义，有助于推动LLM在更广泛的应用领域落地。

📄 摘要（原文）

Post-training quantization (PTQ) is a cornerstone for efficiently deploying large language models (LLMs), where a small calibration set critically affects quantization performance. However, conventional practices rely on random sequences of fixed length, overlooking the variable-length nature of LLM inputs. Input length directly influences the activation distribution and, consequently, the weight importance captured by the Hessian, which in turn affects quantization outcomes. As a result, Hessian estimates derived from fixed-length calibration may fail to represent the true importance of weights across diverse input scenarios. We propose MaCa (Matryoshka Calibration), a simple yet effective method for length-aware Hessian construction. MaCa (i) incorporates multi-scale sequence length information into Hessian estimation and (ii) regularizes each sequence as an independent sample, yielding a more stable and fruitful Hessian for accurate quantization. Experiments on state-of-the-art LLMs (e.g., Qwen3, Gemma3, LLaMA3) demonstrate that MaCa consistently improves accuracy under low bit quantization, offering a lightweight enhancement compatible with existing PTQ frameworks. To the best of our knowledge, this is the first work to systematically highlight the role of multi-scale calibration in LLM quantization.

On the Importance of a Multi-Scale Calibration for Quantization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理