How Do Transformers Learn to Associate Tokens: Gradient Leading Terms Bring Mechanistic Interpretability

作者: Shawn Im, Changdae Oh, Zhen Fang, Sharon Li

分类: cs.CL, cs.LG

发布日期: 2026-01-27

备注: ICLR 2026

💡 一句话要点

通过梯度主导项近似，揭示Transformer学习Token关联的机制可解释性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Transformer 语义关联 可解释性 梯度分析 语言模型

📋 核心要点

现有语言模型缺乏对语义关联学习机制的深入理解，阻碍了模型的可解释性和泛化能力。
该论文通过梯度主导项近似，推导出Transformer权重在训练初期的闭式表达式，揭示了语义关联的形成过程。
实验结果表明，理论推导的权重特征与实际学习到的权重高度吻合，验证了理论分析的有效性。

📝 摘要（中文）

语义关联，例如“鸟”和“飞”之间的联系，是语言建模的基础，它使模型能够超越记忆，进行泛化并生成连贯的文本。理解这些关联如何在语言模型中学习和表示，对于将深度学习与语言学理论联系起来，并为大型语言模型发展一个机制基础至关重要。本文通过训练动态的角度，分析了这些关联如何在基于注意力机制的语言模型中从自然语言数据中涌现。通过利用梯度的leading-term近似，我们为训练早期的权重开发了闭式表达式，解释了语义关联如何首次形成。通过我们的分析，我们揭示了Transformer的每组权重都具有闭式表达式，这些表达式是三个基本函数（bigram、token-interchangeability和context mappings）的简单组合，反映了文本语料库的统计数据，并揭示了Transformer的每个组件如何基于这些组合捕获语义关联。在真实LLM上的实验表明，我们的理论权重特征与学习到的权重非常匹配，定性分析进一步展示了我们的定理如何阐明Transformer中学习到的关联。

🔬 方法详解

问题定义：现有大型语言模型（LLM）在学习token之间的语义关联时，其内部机制仍然是一个黑盒。虽然LLM能够生成连贯的文本，但我们并不清楚模型是如何捕捉和表示这些语义关联的。理解这些关联的形成过程对于提高模型的可解释性、泛化能力和鲁棒性至关重要。现有方法缺乏对训练动态的深入分析，难以揭示语义关联的本质。

核心思路：该论文的核心思路是通过分析训练早期Transformer权重的演化过程，揭示语义关联的形成机制。作者利用梯度主导项近似（leading-term approximation）简化了梯度计算，从而推导出权重的闭式表达式。这些闭式表达式能够清晰地反映文本语料库的统计特性，并揭示Transformer的不同组件是如何基于这些统计特性来捕获语义关联的。

技术框架：该论文的技术框架主要包括以下几个步骤：1) 对Transformer的训练过程进行数学建模；2) 利用梯度主导项近似简化梯度计算；3) 推导出Transformer权重的闭式表达式；4) 将理论推导的权重特征与实际学习到的权重进行比较；5) 对学习到的关联进行定性分析。

关键创新：该论文最重要的技术创新点在于利用梯度主导项近似推导出了Transformer权重的闭式表达式。这些闭式表达式能够清晰地反映文本语料库的统计特性，并揭示Transformer的不同组件是如何基于这些统计特性来捕获语义关联的。与现有方法相比，该论文提供了一种更加深入和细致的分析，能够更好地理解LLM的内部机制。

关键设计：论文的关键设计包括：1) 使用梯度主导项近似来简化梯度计算，这使得推导权重的闭式表达式成为可能；2) 将Transformer的权重分解为三个基本函数（bigram、token-interchangeability和context mappings）的组合，这有助于理解不同组件的作用；3) 使用真实LLM进行实验，验证理论推导的有效性。

📊 实验亮点

实验结果表明，理论推导的权重特征与实际学习到的权重高度吻合，验证了理论分析的有效性。定性分析进一步展示了该理论如何阐明Transformer中学习到的关联，例如，揭示了模型如何捕捉“鸟”和“飞”之间的语义关联。

🎯 应用场景

该研究成果可应用于提升大型语言模型的可解释性和可控性，例如，通过理解模型如何学习语义关联，可以设计更有效的训练方法，提高模型的泛化能力和鲁棒性。此外，该研究还可以用于开发新的模型诊断工具，帮助研究人员更好地理解和调试LLM。

📄 摘要（原文）

Semantic associations such as the link between "bird" and "flew" are foundational for language modeling as they enable models to go beyond memorization and instead generalize and generate coherent text. Understanding how these associations are learned and represented in language models is essential for connecting deep learning with linguistic theory and developing a mechanistic foundation for large language models. In this work, we analyze how these associations emerge from natural language data in attention-based language models through the lens of training dynamics. By leveraging a leading-term approximation of the gradients, we develop closed-form expressions for the weights at early stages of training that explain how semantic associations first take shape. Through our analysis, we reveal that each set of weights of the transformer has closed-form expressions as simple compositions of three basis functions (bigram, token-interchangeability, and context mappings), reflecting the statistics of the text corpus and uncovering how each component of the transformer captures semantic associations based on these compositions. Experiments on real-world LLMs demonstrate that our theoretical weight characterizations closely match the learned weights, and qualitative analyses further show how our theorem shines light on interpreting the learned associations in transformers.

How Do Transformers Learn to Associate Tokens: Gradient Leading Terms Bring Mechanistic Interpretability

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理