Why do LLMs attend to the first token?

📄 arXiv: 2504.02732v4 📥 PDF

作者: Federico Barbero, Álvaro Arroyo, Xiangming Gu, Christos Perivolaropoulos, Michael Bronstein, Petar Veličković, Razvan Pascanu

分类: cs.CL

发布日期: 2025-04-03 (更新: 2025-08-05)


💡 一句话要点

研究揭示LLM关注首个token的机制,避免过度混合是关键

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 注意力机制 注意力汇聚 过度混合 信息传播

📋 核心要点

  1. 现有研究对LLM注意力汇聚现象的成因缺乏深入解释,未能揭示其内在机制和作用。
  2. 论文提出注意力汇聚是LLM避免过度混合的一种机制,通过理论分析和实验验证了这一观点。
  3. 实验表明,上下文长度、模型深度和数据打包方式等因素会影响注意力汇聚的行为。

📝 摘要(中文)

大型语言模型(LLM)倾向于高度关注序列中的第一个token,形成所谓的“注意力汇聚”。许多研究已经详细探讨了这种现象,并提出了各种利用或缓解它的方法。注意力汇聚与量化困难、安全问题和流式注意力相关联。然而,尽管许多工作提供了发生或不发生的条件,但一个关键问题仍然没有得到充分解答:LLM为什么会学习这种模式,以及它们是如何被使用的?在这项工作中,我们从理论和经验两方面论证,这种机制为LLM提供了一种避免过度混合的方法,并将其与研究Transformer中信息如何传播的现有工作联系起来。我们进行了实验来验证我们的理论直觉,并展示了上下文长度、深度和数据打包等选择如何影响汇聚行为。我们希望这项研究能为注意力汇聚在LLM中的作用提供一个新的实用视角,从而更好地理解训练过程中形成的注意力模式。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)中注意力汇聚现象的成因问题。现有研究虽然观察到LLM倾向于关注序列中的第一个token,但未能充分解释这种现象背后的机制,以及它在模型学习过程中的作用。现有方法缺乏对注意力汇聚的理论解释,难以指导模型设计和优化。

核心思路:论文的核心思路是,注意力汇聚是LLM避免过度混合的一种机制。过度混合会导致信息损失和模型性能下降。通过关注第一个token,LLM可以有效地保留初始信息,防止后续层的信息过度稀释。这种机制类似于一种“锚定”策略,有助于稳定模型的学习过程。

技术框架:论文采用理论分析和实验验证相结合的方法。首先,通过数学推导,论证了注意力汇聚与信息传播之间的关系。然后,设计了一系列实验,考察了不同因素(如上下文长度、模型深度、数据打包方式)对注意力汇聚的影响。实验结果用于验证理论分析的正确性。

关键创新:论文最重要的技术创新在于,提出了注意力汇聚是LLM避免过度混合的机制这一观点。与现有研究主要关注注意力汇聚的负面影响(如量化困难、安全问题)不同,该论文强调了注意力汇聚的积极作用,即维持信息完整性。

关键设计:论文的关键设计包括:1) 设计了能够量化注意力汇聚程度的指标;2) 选择了具有代表性的LLM架构进行实验;3) 控制了实验变量,以便准确评估不同因素对注意力汇聚的影响;4) 采用了多种评估指标,全面评估模型性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了上下文长度、模型深度和数据打包方式等因素对注意力汇聚的影响。例如,实验表明,随着上下文长度的增加,注意力汇聚现象会更加明显。此外,更深的模型往往表现出更强的注意力汇聚行为。这些实验结果为理解和控制注意力汇聚提供了重要的依据。

🎯 应用场景

该研究成果有助于更好地理解LLM的内部工作机制,为模型设计和优化提供理论指导。例如,可以根据注意力汇聚的特性,设计更有效的训练策略,提高模型的性能和鲁棒性。此外,该研究还可以应用于安全领域,例如,通过分析注意力汇聚模式,检测和防御恶意攻击。

📄 摘要(原文)

Large Language Models (LLMs) tend to attend heavily to the first token in the sequence -- creating a so-called attention sink. Many works have studied this phenomenon in detail, proposing various ways to either leverage or alleviate it. Attention sinks have been connected to quantisation difficulties, security issues, and streaming attention. Yet, while many works have provided conditions in which they occur or not, a critical question remains shallowly answered: Why do LLMs learn such patterns and how are they being used? In this work, we argue theoretically and empirically that this mechanism provides a method for LLMs to avoid over-mixing, connecting this to existing lines of work that study mathematically how information propagates in Transformers. We conduct experiments to validate our theoretical intuitions and show how choices such as context length, depth, and data packing influence the sink behaviour. We hope that this study provides a new practical perspective on why attention sinks are useful in LLMs, leading to a better understanding of the attention patterns that form during training.