WINDQuant: Weight-Informed Neural Decision-Making for Global Mixed-Precision LLM Quantization

作者: Phong Nam Huu Nguyen, Khoi M. Le, Cong-Duy T Nguyen, Anh Tuan Luu, Thong Thanh Nguyen, Tho Quan

分类: cs.LG

发布日期: 2026-05-26

💡 一句话要点

WINDQuant：基于权重信息的神经决策，用于全局混合精度LLM量化

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM量化 混合精度量化 强化学习 超低比特量化 模型压缩

📋 核心要点

现有LLM量化方法在超低比特率下精度损失严重，且后训练量化精度低，量化感知训练成本高昂。
WINDQuant利用强化学习，学习为LLM的细粒度列块分配比特宽度和量化策略，实现全局存储预算下的优化。
实验表明，WINDQuant在超低比特率下表现出色，降低了优化开销，验证了强化学习在混合精度量化中的潜力。

📝 摘要（中文）

量化是降低大型语言模型（LLM）内存占用和推理成本的有效方法，但在超低比特率下保持性能仍然具有挑战性。现有的后训练量化方法通常会遭受严重的精度下降，而量化感知训练需要昂贵的再训练和额外的资源。此外，大多数混合精度策略依赖于粗粒度或启发式敏感性分析，忽略了权重矩阵中的细粒度变化。我们提出了WINDQuant，一种基于强化学习的分配控制器，用于超低比特LLM量化。WINDQuant不是引入另一个低级量化算子，而是学习如何在全局存储预算下，将比特宽度和量化处理分配给细粒度的列块。通过在列块级别操作，WINDQuant能够在全局目标比特宽度下，实现层内灵活且细粒度的精度分配。该实现结合了PPO与激活感知校准、轻量级每单元量化器拟合，以及学习到的混合精度方案的显式有效比特核算。在LLaMA模型上的实验表明，WINDQuant在超低比特设置中实现了有竞争力的性能，同时降低了相对于基于再训练方法的优化开销，突出了强化学习作为自适应混合精度量化的实用控制器。

🔬 方法详解

问题定义：论文旨在解决超低比特量化LLM时，现有方法精度损失严重、量化感知训练成本过高的问题。现有混合精度量化方法通常采用粗粒度或启发式敏感性分析，忽略了权重矩阵内部的细粒度差异，导致量化效果不佳。

核心思路：论文的核心思路是利用强化学习（Reinforcement Learning）训练一个控制器，该控制器能够根据权重信息，为LLM的细粒度列块自适应地分配比特宽度和量化策略。通过这种方式，可以在满足全局存储预算的前提下，最大程度地保留模型精度。选择强化学习是因为其能够处理复杂的决策空间，并根据环境反馈进行优化。

技术框架：WINDQuant的整体框架包含以下几个主要模块：1) 强化学习控制器：使用PPO算法训练，负责为每个列块分配比特宽度和量化策略。2) 激活感知校准：在量化前对激活值进行校准，以减少量化误差。3) 轻量级每单元量化器拟合：为每个列块拟合一个轻量级的量化器，以实现更精细的量化。4) 有效比特核算：显式地计算学习到的混合精度方案的有效比特数，以确保满足全局存储预算。

关键创新：WINDQuant的关键创新在于：1) 细粒度混合精度量化：在列块级别进行比特宽度分配，实现了更灵活和精细的量化。2) 基于强化学习的自适应量化：利用强化学习自动学习最佳的量化策略，避免了手动调整的繁琐。3) 有效比特核算：显式地考虑了混合精度方案的有效比特数，确保满足存储预算。

关键设计：WINDQuant的关键设计包括：1) PPO算法：使用PPO算法训练强化学习控制器，奖励函数的设计至关重要，需要平衡模型精度和存储预算。2) 列块大小：列块大小的选择会影响量化的粒度和性能，需要根据具体模型进行调整。3) 量化策略：可以选择不同的量化策略，如对称量化、非对称量化等，需要根据具体情况进行选择。4) 激活感知校准：采用激活感知校准技术，减少量化误差。

🖼️ 关键图片

📊 实验亮点

实验结果表明，WINDQuant在LLaMA模型上实现了有竞争力的性能，尤其是在超低比特设置下。相比于传统的后训练量化方法，WINDQuant能够显著提高模型精度。同时，WINDQuant降低了相对于基于再训练方法的优化开销，使得超低比特量化更加实用。

🎯 应用场景

WINDQuant具有广泛的应用前景，尤其是在资源受限的场景下，如移动设备、边缘计算等。它可以帮助在这些设备上部署大型语言模型，从而实现更智能的应用。此外，WINDQuant还可以应用于其他深度学习模型，提高模型的效率和可部署性。未来，该技术有望推动人工智能在各个领域的普及。

📄 摘要（原文）

Quantization is an effective approach to reduce the memory footprint and inference cost of large language models (LLMs), yet maintaining performance in the ultra-low-bit regime remains challenging. Existing post-training methods often suffer from severe accuracy degradation, while quantization-aware training requires costly retraining and additional resources. Moreover, most mixed-precision strategies rely on coarse-grained or heuristic sensitivity analysis that overlooks fine-grained variations within weight matrices. We propose WINDQuant, a reinforcement-learning-based allocation controller for ultra-low-bit LLM quantization. Rather than introducing another low-level quantization operator, WINDQuant learns how to assign bit-widths and quantization treatments to fine-grained column chunks under a global storage budget. By operating at the column-chunk level, WINDQuant enables flexible and fine-grained precision assignment within layers under a global target bit-width. The implementation combines PPO with activation-aware calibration, lightweight per-unit quantizer fitting, and explicit effective-bit accounting of the learned mixed-precision plan. Experiments on LLaMA models demonstrate that WINDQuant achieves competitive performance in ultra-low-bit settings while reducing optimization overhead relative to retraining-based approaches, highlighting reinforcement learning as a practical controller for adaptive mixed-precision quantization.

WINDQuant: Weight-Informed Neural Decision-Making for Global Mixed-Precision LLM Quantization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理