Measuring Maximum Activations in Open Large Language Models
作者: Luxuan Chen, Han Tian, Xinran Chen, Rui Kong, Fang Wang, Jiamin Chen, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Haoyi Xiong, Dawei Yin
分类: cs.CL
发布日期: 2026-05-15
🔗 代码/项目: GITHUB
💡 一句话要点
测量开放大语言模型中的最大激活值,揭示模型特性与低比特部署的关系
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 激活值测量 低比特量化 模型部署 模型特性
📋 核心要点
- 现有工作对早期LLaMA模型的激活值进行了分析,但缺乏对新型开放LLM激活值范围的系统性研究。
- 本文提出了一种统一的测量流程,用于评估不同家族、世代和训练阶段的开放LLM的最大激活值。
- 实验表明,最大激活值与模型家族、架构和训练阶段密切相关,而非仅由模型大小决定。
📝 摘要(中文)
激活值的动态范围是低比特量化、激活缩放和稳定LLM推理的首要约束。先前的工作描述了2024年之前的LLaMA风格模型中的异常特征和巨大激活值,下游的激活量化堆栈继承了这种模式,而没有针对LLaMA之后的开放模型繁荣进行重新评估。本文着眼于部署,研究了现代开放LLM中的激活值能达到多大,以及这种幅度如何在不同家族、世代和训练阶段变化。通过统一的流程(5000个样本的多领域语料库、特定于家族的分词、跨嵌入、隐藏状态、注意力、MLP/MoE、SwiGLU门和最终归一化的相同钩子),我们测量了来自8个开放家族的27个检查点的全局和层级最大值,涵盖了稠密、MoE、视觉语言、中间训练和指令调整变体。我们发现:(i)在可比的参数数量下,全局最大值跨越了近四个数量级,Qwen3.5和MoE检查点在10^2到10^3范围内,而Gemma3-27B-it达到了约7 x 10^5;(ii)跨家族和跨世代的比较打破了简单的单调缩放;(iii)MoE检查点表现出比匹配规模的稠密对应物低14.0-23.4倍的峰值,而残差流在22/24个检查点中携带全局最大值。一个轻量级的INT-8健全性检查表明,测量的最大值通过激活尺度选择与低比特重建误差共同变化。我们得出结论,最大激活幅度是与家族、架构和训练阶段相关的模型属性,而不是大小的简单副产品,应该在低比特部署之前与任何开放权重版本一起测量和报告。
🔬 方法详解
问题定义:现有的大语言模型低比特量化部署依赖于对激活值范围的理解。然而,早期研究主要集中在LLaMA风格的模型上,缺乏对新型开放大语言模型(如Qwen、Gemma等)激活值范围的系统性分析,这阻碍了这些模型的高效量化和部署。现有方法无法准确预测和控制这些新型模型的激活值范围,可能导致量化误差增大和推理性能下降。
核心思路:本文的核心思路是通过对多种开放大语言模型进行大规模的激活值测量,揭示不同模型家族、架构和训练阶段对激活值范围的影响。通过统一的测量流程,可以系统地比较不同模型的激活值特性,从而为低比特量化部署提供更准确的指导。这种方法强调了模型特性而非简单模型大小对激活值范围的决定性作用。
技术框架:本文采用了一个统一的测量流程,包括以下主要步骤:1) 选择包含5000个样本的多领域语料库;2) 使用特定于模型家族的分词器;3) 在模型的嵌入层、隐藏状态、注意力层、MLP/MoE层、SwiGLU门和最终归一化层设置相同的钩子;4) 测量27个来自8个开放家族的检查点的全局和层级最大激活值。这些模型涵盖了稠密模型、MoE模型、视觉语言模型、中间训练模型和指令调整模型。
关键创新:本文最重要的技术创新点在于对多种开放大语言模型进行了系统性的激活值测量和分析,揭示了最大激活值与模型家族、架构和训练阶段的关联性。与现有方法不同,本文强调了模型特性而非简单模型大小对激活值范围的决定性作用。此外,本文还提供了一个统一的测量流程,可以方便地用于评估其他大语言模型的激活值特性。
关键设计:在测量流程中,关键的设计包括:1) 使用统一的语料库和分词器,以确保不同模型之间的可比性;2) 在模型的各个关键层设置相同的钩子,以捕获不同层的激活值;3) 测量全局和层级最大激活值,以全面了解激活值的分布情况;4) 进行INT-8健全性检查,以验证测量结果与低比特重建误差之间的关系。
🖼️ 关键图片
📊 实验亮点
实验结果表明,全局最大激活值在不同模型家族中跨越了近四个数量级,Qwen3.5和MoE检查点在10^2到10^3范围内,而Gemma3-27B-it达到了约7 x 10^5。MoE检查点表现出比匹配规模的稠密对应物低14.0-23.4倍的峰值。INT-8健全性检查表明,测量的最大值与低比特重建误差共同变化。
🎯 应用场景
该研究成果可直接应用于大语言模型的低比特量化部署,帮助开发者选择合适的量化策略和激活缩放因子,从而在保证模型性能的同时降低计算和存储成本。此外,该研究还可以指导新型大语言模型的架构设计和训练过程,使其更易于量化和部署。未来的影响包括更高效、更经济的大语言模型应用,以及在资源受限设备上的部署。
📄 摘要(原文)
The dynamic range of activations is a first-order constraint for low-bit quantization, activation scaling, and stable LLM inference. Prior work characterized outlier features and massive activations on pre-2024 LLaMA-style models, and the downstream activation-quantization stack inherits that picture without revisiting it for the post-LLaMA open-model boom. We ask the deployment-oriented question: how large can activations get in modern open LLMs, and how does this magnitude vary across families, generations, and training stages? Under a unified pipeline (5,000-sample multi-domain corpus, family-specific tokenization, identical hooks across embeddings, hidden states, attention, MLP/MoE, SwiGLU gates, and final norm), we measure global and layerwise maxima on 27 checkpoints from 8 open families spanning dense, MoE, vision-language, intermediate-training, and instruction-tuned variants. We find that (i) global maxima span over nearly four orders of magnitude at comparable parameter counts, with Qwen3.5 and MoE checkpoints in the 10^2 to 10^3 range and Gemma3-27B-it reaching ~7 x 10^5; (ii) cross-family and cross-generation comparisons break simple monotonic scaling; and (iii) MoE checkpoints exhibit 14.0-23.4x lower peaks than matched-scale dense counterparts, while the residual stream carries the global maximum in 22/24 checkpoints. A lightweight INT-8 sanity check shows that measured maxima co-vary with low-bit reconstruction error via activation-scale selection. We conclude that maximum activation magnitude is a model property tied to family, architecture, and training stage - not a simple byproduct of size - and should be measured and reported alongside any open-weight release before low-bit deployment. The code is publicly available at https://github.com/clx1415926/Max_act_llm.