Transformers converge to invariant algorithmic cores

作者: Joshua S. Schiffman

分类: cs.LG, cs.AI

发布日期: 2026-02-28

💡 一句话要点

揭示Transformer不变算法核心：跨训练和尺度共享的低维结构

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Transformer模型 机制可解释性 算法核心 低维不变量 Grokking 语言模型 主谓一致 模型泛化

📋 核心要点

大型语言模型内部机制复杂，存在多种权重配置实现相同功能的挑战，难以确定哪些结构反映了计算本质。
论文提出提取“算法核心”的方法，即任务性能所必需且充分的紧凑子空间，以揭示Transformer的计算本质。
实验表明，独立训练的Transformer收敛到相同的算法核心，GPT-2通过单个轴控制主谓一致，揭示了跨训练和尺度的不变性。

📝 摘要（中文）

大型语言模型展现了复杂的能力，但理解其内部工作机制仍然是一个核心挑战。一个根本性的障碍是，训练选择的是行为而非电路，因此许多权重配置可以实现相同的功能。哪些内部结构反映了计算，哪些是特定训练运行的偶然结果？本文提取了算法核心：完成任务所必需且充分的紧凑子空间。独立训练的Transformer学习不同的权重，但收敛到相同的核心。马尔可夫链Transformer将3D核心嵌入到几乎正交的子空间中，但恢复了相同的跃迁谱。模块化加法Transformer在Grokking时发现了紧凑的循环算子，随后膨胀，产生了一个记忆到泛化过渡的预测模型。GPT-2语言模型通过单个轴控制主谓一致，当翻转该轴时，会在跨尺度的生成过程中反转语法数量。这些结果揭示了跨训练运行和尺度持续存在的低维不变量，表明Transformer计算是围绕紧凑的、共享的算法结构组织的。机制可解释性可以受益于针对这些不变量（计算本质），而不是特定于实现的细节。

🔬 方法详解

问题定义：理解大型语言模型（LLM）的内部工作机制是一个核心挑战。由于训练过程倾向于选择行为而非特定的电路实现，因此存在多种权重配置可以实现相同的功能。这使得难以区分哪些内部结构是计算的本质反映，哪些是特定训练运行的偶然结果。现有方法缺乏有效手段来识别和提取LLM中真正重要的计算结构。

核心思路：论文的核心思路是提取“算法核心”，即完成特定任务所必需且充分的紧凑子空间。通过识别这些核心，可以揭示Transformer计算的本质，并区分重要的计算结构和特定实现的细节。论文假设，尽管独立训练的Transformer可能学习到不同的权重，但它们会收敛到相同的算法核心。

技术框架：论文通过以下几个方面来验证其核心思路：1) 研究独立训练的Transformer在学习相同任务时是否收敛到相同的算法核心；2) 分析马尔可夫链Transformer如何嵌入和恢复相同的跃迁谱；3) 研究模块化加法Transformer在Grokking过程中循环算子的演变；4) 分析GPT-2语言模型中控制主谓一致的机制。通过这些分析，论文旨在揭示Transformer计算中存在的低维不变量。

关键创新：论文最重要的技术创新点在于提出了“算法核心”的概念，并提供了一种提取和分析这些核心的方法。与以往关注特定权重配置或电路实现的研究不同，该论文关注的是跨训练运行和尺度持续存在的低维不变量，这有助于更深入地理解Transformer的计算本质。

关键设计：论文使用了多种技术手段来提取和分析算法核心，包括：1) 子空间分析，用于识别完成任务所必需的紧凑子空间；2) 谱分析，用于研究马尔可夫链Transformer的跃迁谱；3) 动态分析，用于研究模块化加法Transformer在Grokking过程中的演变；4) 轴向分析，用于研究GPT-2语言模型中控制主谓一致的机制。具体的参数设置、损失函数、网络结构等细节取决于具体的实验设置，论文中针对不同的任务和模型进行了相应的调整。

🖼️ 关键图片

📊 实验亮点

论文的主要实验结果包括：独立训练的Transformer收敛到相同的算法核心；马尔可夫链Transformer将3D核心嵌入到几乎正交的子空间中，但恢复了相同的跃迁谱；模块化加法Transformer在Grokking时发现了紧凑的循环算子；GPT-2语言模型通过单个轴控制主谓一致，翻转该轴会反转语法数量。这些结果表明，Transformer计算是围绕紧凑的、共享的算法结构组织的。

🎯 应用场景

该研究成果可应用于提升Transformer模型的机制可解释性，帮助研究人员更好地理解模型的内部工作机制。通过关注算法核心，可以更有效地进行模型调试、优化和安全验证。此外，该研究还有助于开发更高效、更鲁棒的Transformer模型，并为未来的AI系统设计提供新的思路。

📄 摘要（原文）

Large language models exhibit sophisticated capabilities, yet understanding how they work internally remains a central challenge. A fundamental obstacle is that training selects for behavior, not circuitry, so many weight configurations can implement the same function. Which internal structures reflect the computation, and which are accidents of a particular training run? This work extracts algorithmic cores: compact subspaces necessary and sufficient for task performance. Independently trained transformers learn different weights but converge to the same cores. Markov-chain transformers embed 3D cores in nearly orthogonal subspaces yet recover identical transition spectra. Modular-addition transformers discover compact cyclic operators at grokking that later inflate, yielding a predictive model of the memorization-to-generalization transition. GPT-2 language models govern subject-verb agreement through a single axis that, when flipped, inverts grammatical number throughout generation across scales. These results reveal low-dimensional invariants that persist across training runs and scales, suggesting that transformer computations are organized around compact, shared algorithmic structures. Mechanistic interpretability could benefit from targeting such invariants -- the computational essence -- rather than implementation-specific details.

Transformers converge to invariant algorithmic cores

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理