Identifying and Evaluating Inactive Heads in Pretrained LLMs

📄 arXiv: 2504.03889v3 📥 PDF

作者: Pedro Sandoval-Segura, Xijun Wang, Ashwinee Panda, Micah Goldblum, Ronen Basri, Tom Goldstein, David Jacobs

分类: cs.LG

发布日期: 2025-04-04 (更新: 2025-10-08)

备注: 19 pages, 11 figures


💡 一句话要点

提出一种评估LLM中非活跃注意力头的方法,并通过消融实验验证其有效性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 注意力机制 模型压缩 非活跃注意力头 模型优化

📋 核心要点

  1. 大型语言模型中存在大量冗余的注意力头,这些头可能对模型性能贡献不大,甚至产生负面影响。
  2. 论文提出了一套包含13个评分函数的分类体系,用于量化注意力头的活跃程度,并识别潜在的非活跃头。
  3. 实验表明,通过消融识别出的非活跃注意力头,可以在保持模型性能的同时,显著减少计算开销。

📝 摘要(中文)

大型语言模型(LLM)中的注意力机制至关重要,它使不同的注意力头能够关注相关的输入token。然而,诸如“注意力沉没”之类的现象表明,某些注意力头可能处于非活跃状态,这导致了计算冗余。为了分析这种现象,本文提出了一种包含13个评分函数的分类法,用于衡量注意力头非活跃的不同方式。通过对这些分数进行阈值处理,可以分析不同的潜在非活跃注意力头集合。通过模型干预,我们评估了识别出的注意力头是否真的处于非活跃状态,发现平均超过12%的注意力头处于非活跃状态,并且可以在特定上下文中被消融,同时保持MMLU准确率在预训练LLM的1%以内。在3个模型系列中,测量注意力头输出平均范数的评分函数始终能识别出仅依赖注意力权重的评分函数无法找到的非活跃注意力头。我们确定,依赖于测量首个token注意力沉没的评分函数会低估非活跃注意力头的普遍性,平均未能识别出超过7%的非活跃注意力头。我们还展示了如何通过测量分数分布来深入了解注意力行为。例如,我们发现微调对注意力行为几乎没有改变,并且即使在同一模型系列中,大型模型也表现出明显不同的注意力行为。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)中注意力头存在冗余的问题。现有方法主要依赖于注意力权重来评估注意力头的重要性,但忽略了注意力头输出的范数等其他重要信息,导致无法有效识别所有非活跃的注意力头。这种冗余不仅增加了计算成本,还可能影响模型的泛化能力。

核心思路:论文的核心思路是通过设计一套更全面的评分函数,从多个维度评估注意力头的活跃程度,包括注意力权重、输出范数等。通过设置阈值,筛选出潜在的非活跃注意力头,并通过消融实验验证其有效性。这种方法旨在更准确地识别LLM中的冗余注意力头,从而为模型压缩和优化提供依据。

技术框架:论文的技术框架主要包含以下几个阶段:1) 评分函数设计:设计13个评分函数,用于衡量注意力头的活跃程度,包括基于注意力权重的指标和基于输出范数的指标。2) 阈值设定:为每个评分函数设定阈值,用于筛选出潜在的非活跃注意力头。3) 消融实验:将识别出的非活跃注意力头进行消融,观察模型在MMLU等benchmark上的性能变化。4) 结果分析:分析不同评分函数识别出的非活跃注意力头的差异,以及消融实验对模型性能的影响。

关键创新:论文的关键创新在于提出了一个更全面的注意力头活跃度评估体系,不仅考虑了注意力权重,还考虑了注意力头的输出范数。这使得论文能够识别出传统方法无法识别的非活跃注意力头。此外,论文还通过消融实验验证了所提出的评估体系的有效性。

关键设计:论文的关键设计包括:1) 13个评分函数的选择:这些评分函数涵盖了注意力权重的不同统计量(如均值、最大值、熵)以及注意力头输出的范数。2) 阈值的设定方法:论文采用了一种基于统计分布的阈值设定方法,以确保能够筛选出真正非活跃的注意力头。3) 消融实验的设计:论文在MMLU等benchmark上进行了消融实验,以评估消融非活跃注意力头对模型性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,平均超过12%的注意力头处于非活跃状态,并且可以在特定上下文中被消融,同时保持MMLU准确率在预训练LLM的1%以内。此外,基于输出范数的评分函数能够识别出传统方法无法识别的非活跃注意力头,平均能多识别出7%的非活跃头。

🎯 应用场景

该研究成果可应用于大型语言模型的压缩与加速,通过移除或剪枝非活跃的注意力头,降低模型计算复杂度,提升推理效率,从而更好地部署在资源受限的设备上。此外,该研究也有助于理解大型语言模型内部的注意力机制,为模型设计和优化提供指导。

📄 摘要(原文)

Attention is foundational to large language models (LLMs), enabling different heads to have diverse focus on relevant input tokens. However, learned behaviors like attention sinks, where the first token receives the most attention despite limited semantic importance, suggest some heads may be inactive, and point to a significant source of computational redundancy. To analyze this phenomenon, we propose a taxonomy of 13 score functions that measure different ways a head can be inactive. Thresholding these scores allows us to analyze different sets of potentially inactive attention heads. We evaluate whether identified heads are inactive through model interventions, finding that more than 12% of attention heads are inactive on average, and can be ablated in specific contexts while maintaining MMLU accuracy to within 1% of the pretrained LLM. Across 3 model families, our score functions that measure the average norm of a head's output consistently identify inactive heads that would not have been found by score functions that rely solely on attention weights. We establish that relying on a score function that measures a first token attention sink would underestimate the prevalence of inactive heads, failing to identify more than 7% of inactive heads on average. We also show how measuring score distributions can provide insights into attention behavior. For instance, we find evidence that finetuning causes little to no change in attention behavior, and that even within the same model family, large model scales present markedly different attention behaviors.