GAMMA: Global Bit Allocation for Mixed-Precision Models under Arbitrary Budgets
作者: Zhangyang Yao, Haiyan Zhao, Haoyu Wang, Tianbo Huang, Lihua Zhang, Xu Han
分类: cs.LG, cs.AI
发布日期: 2026-05-18
💡 一句话要点
GAMMA:面向任意预算的混合精度模型全局比特分配框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合精度量化 大型语言模型 模型压缩 后训练量化 比特分配
📋 核心要点
- 现有混合精度量化方法在大型语言模型上应用受限,主要因为量化感知训练成本高昂,免训练方法精度不足,搜索方法效率低下。
- GAMMA框架通过后训练方式学习模块精度偏好,利用教师强制的隐藏状态重建目标和增强拉格朗日约束进行优化。
- 实验结果表明,GAMMA在Llama和Qwen模型上显著优于固定精度和搜索方法,能在更低平均精度下达到可比性能。
📝 摘要(中文)
混合精度量化通过为敏感模块分配更多比特,改善了大型语言模型(LLM)的预算-精度权衡。然而,在LLM规模上自动化这种分配面临独特的约束:可学习方法需要量化感知训练,这对于数十亿参数的模型是不可行的;免训练的替代方案依赖于静态代理指标,这些指标忽略了跨模块的交互,并且必须针对每个目标预算重新计算;基于搜索的方法成本高昂,且不能保证精确的预算合规性。我们提出了GAMMA,一个量化器无关的框架,它完全在后训练流程中学习模块级的精度偏好。GAMMA在增强拉格朗日约束下,优化了一个教师强制的隐藏状态重建目标,并通过整数规划将学习到的偏好投影到精确的预算可行离散分配中。一个关键特性是分数重用:由于学习到的偏好编码了一个稳定的敏感性排序,而不是特定于预算的权重,因此通过仅重新求解整数规划,单个训练运行即可服务于任意部署目标,从而将每个预算的适应时间从数小时减少到几分钟。在Llama和Qwen模型(8B--32B)上,GAMMA优于固定精度基线(高达+12.99 Avg.)和基于搜索的混合精度方法(高达+7.00 Avg.),并且可以在2.5比特的平均精度下匹配固定3比特的质量,从而能够以更小的内存占用进行部署。
🔬 方法详解
问题定义:论文旨在解决大型语言模型混合精度量化中,如何在满足特定预算约束下,自动为不同模块分配最佳比特数的问题。现有方法要么需要昂贵的量化感知训练,要么依赖于不准确的代理指标,或者搜索效率低下,无法保证预算约束。
核心思路:GAMMA的核心思路是学习一个与具体预算无关的模块敏感性排序。通过训练一个模型来重建原始模型的隐藏层状态,从而捕捉不同模块的重要性。然后,利用整数规划将学习到的敏感性排序转化为满足预算约束的离散比特分配。
技术框架:GAMMA框架包含两个主要阶段:1) 模块敏感性学习:使用教师强制的隐藏状态重建目标,在增强拉格朗日约束下学习模块的精度偏好。2) 比特分配:利用整数规划,将学习到的精度偏好投影到满足预算约束的离散比特分配方案。整个过程是后训练的,不需要量化感知训练。
关键创新:GAMMA的关键创新在于解耦了模块敏感性学习和比特分配过程。通过学习与预算无关的敏感性排序,实现了分数重用,即一次训练可以服务于多个不同的预算目标,大大降低了计算成本。此外,使用整数规划保证了比特分配的精确预算合规性。
关键设计:GAMMA使用教师强制的隐藏状态重建作为损失函数,鼓励量化后的模型尽可能地逼近原始模型的行为。增强拉格朗日约束用于控制总比特数的使用。整数规划的目标是最大化模块的精度偏好,同时满足总比特数预算约束。具体实现细节包括如何选择教师模型、如何定义隐藏状态重建损失、以及如何设计整数规划的目标函数和约束条件。
🖼️ 关键图片
📊 实验亮点
GAMMA在Llama和Qwen模型(8B-32B)上进行了实验,结果表明,相对于固定精度基线,GAMMA平均提升高达12.99,相对于基于搜索的混合精度方法,平均提升高达7.00。GAMMA能够在2.5比特的平均精度下匹配固定3比特的性能,显著降低了模型的内存占用。
🎯 应用场景
GAMMA框架可应用于各种大型语言模型的压缩和部署,尤其是在资源受限的边缘设备上。通过降低模型内存占用,可以实现更快的推理速度和更低的功耗,从而扩展LLM的应用范围,例如移动设备上的智能助手、嵌入式系统的自然语言处理等。
📄 摘要(原文)
Mixed-precision quantization improves the budget--accuracy trade-off for large language models (LLMs) by allocating more bits to sensitive modules. However, automating this allocation at LLM scale faces a unique combination of constraints: learnable approaches require quantization-aware training, which is infeasible for billion-parameter models; training-free alternatives rely on static proxy metrics that miss cross-module interactions and must be recomputed per target budget; and search-based methods are expensive without guaranteeing exact budget compliance. We propose GAMMA, a quantizer-agnostic framework that learns module-wise precision preferences entirely within a post-training pipeline. GAMMA optimizes a teacher-forced hidden-state reconstruction objective under an augmented Lagrangian constraint, and projects the learned preferences into exact budget-feasible discrete assignments via integer programming. A key property is score reuse: because the learned preferences encode a stable sensitivity ranking rather than budget-specific weights, a single training run serves arbitrary deployment targets by re-solving only the integer program, reducing per-budget adaptation from hours to a few minutes. Across Llama and Qwen models (8B--32B), GAMMA outperforms both fixed-precision baselines (up to +12.99 Avg.) and search-based mixed-precision methods (up to +7.00 Avg.), and can match fixed 3-bit quality at 2.5-bit average precision, enabling deployment at substantially smaller memory footprints.