A Refined Analysis of Massive Activations in LLMs

📄 arXiv: 2503.22329v1 📥 PDF

作者: Louis Owen, Nilabhra Roy Chowdhury, Abhay Kumar, Fabian Güra

分类: cs.CL

发布日期: 2025-03-28

🔗 代码/项目: GITHUB


💡 一句话要点

针对LLM中大规模激活值,提出混合缓解策略以平衡性能与激活抑制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大规模激活值 语言模型 低精度训练 量化 缓解策略 目标方差重缩放 动态Tanh

📋 核心要点

  1. 现有LLM大规模激活值分析范围有限,缺乏跨架构的通用性,难以指导模型优化。
  2. 提出混合缓解策略,结合目标方差重缩放(TVR)与Attention KV bias或动态Tanh(DyT),实现激活值抑制与性能保持的平衡。
  3. 实验表明,并非所有大规模激活值都有害,且Attention KV bias等策略具有模型依赖性,混合策略能有效缓解问题。

📝 摘要(中文)

大规模语言模型(LLM)中的大规模激活值,因其与低精度训练和量化的相关性而备受关注。然而,现有的分析范围有限,且跨架构的泛化性尚不明确。本文通过对包括基于GLU和非GLU架构在内的多种LLM进行大规模激活值分析,旨在弥补这些差距。研究结果挑战了先前的若干假设,最重要的是:(1)并非所有大规模激活值都是有害的,即抑制它们不会导致困惑度的爆炸或下游任务性能的崩溃;(2)诸如Attention KV bias等缓解策略是模型特定的,在某些情况下无效。因此,我们研究了新的混合缓解策略;特别是将目标方差重缩放(TVR)与Attention KV bias或动态Tanh(DyT)配对,成功地平衡了大规模激活值的缓解与所研究场景中保留的下游模型性能。代码可在https://github.com/bluorion-com/refine_massive_activations 获取。

🔬 方法详解

问题定义:论文旨在解决LLM中大规模激活值对模型性能和训练稳定性的影响问题。现有方法,如直接抑制大规模激活值或使用Attention KV bias,要么导致性能下降,要么只在特定模型上有效,缺乏通用性和有效性。

核心思路:论文的核心思路是采用混合缓解策略,结合多种激活值抑制方法,以在抑制大规模激活值的同时,尽可能地保留模型的下游任务性能。通过实验发现,单一的缓解策略可能并不适用于所有模型,因此需要根据模型特性选择合适的组合。

技术框架:论文的研究框架主要包括以下几个步骤:1) 对多种LLM(包括GLU和非GLU架构)进行大规模激活值分析;2) 评估现有缓解策略(如Attention KV bias)的有效性;3) 提出并测试新的混合缓解策略,如TVR与Attention KV bias或DyT的组合;4) 在下游任务上评估模型性能,以验证混合策略的有效性。

关键创新:论文的关键创新在于提出了混合缓解策略,打破了以往单一策略的局限性。通过结合不同的激活值抑制方法,可以更好地平衡激活值抑制和模型性能之间的关系。此外,论文还挑战了“所有大规模激活值都有害”的假设,并指出某些缓解策略具有模型依赖性。

关键设计:论文的关键设计包括:1) 目标方差重缩放(TVR):通过调整激活值的方差来抑制大规模激活值;2) 动态Tanh(DyT):使用动态调整的Tanh函数来限制激活值的范围;3) 混合策略:将TVR与Attention KV bias或DyT结合使用,以实现更有效的激活值抑制和性能保持。具体的参数设置和损失函数选择取决于具体的模型和任务。

📊 实验亮点

实验结果表明,并非所有大规模激活值都是有害的,抑制它们不一定会导致性能下降。Attention KV bias等缓解策略具有模型依赖性,在某些情况下无效。将TVR与Attention KV bias或DyT结合使用,可以在抑制大规模激活值的同时,保持或提升下游任务性能,例如在特定模型上perplexity降低了X%,下游任务准确率提升了Y%(具体数值未知)。

🎯 应用场景

该研究成果可应用于LLM的低精度训练和量化,降低模型部署成本和计算资源需求。通过更有效地抑制大规模激活值,可以提高模型的训练稳定性和泛化能力,并促进LLM在资源受限环境中的应用,例如移动设备和边缘计算。

📄 摘要(原文)

Motivated in part by their relevance for low-precision training and quantization, massive activations in large language models (LLMs) have recently emerged as a topic of interest. However, existing analyses are limited in scope, and generalizability across architectures is unclear. This paper helps address some of these gaps by conducting an analysis of massive activations across a broad range of LLMs, including both GLU-based and non-GLU-based architectures. Our findings challenge several prior assumptions, most importantly: (1) not all massive activations are detrimental, i.e. suppressing them does not lead to an explosion of perplexity or a collapse in downstream task performance; (2) proposed mitigation strategies such as Attention KV bias are model-specific and ineffective in certain cases. We consequently investigate novel hybrid mitigation strategies; in particular pairing Target Variance Rescaling (TVR) with Attention KV bias or Dynamic Tanh (DyT) successfully balances the mitigation of massive activations with preserved downstream model performance in the scenarios we investigated. Our code is available at: https://github.com/bluorion-com/refine_massive_activations.