Transformers converge to invariant algorithmic cores
作者: Joshua S. Schiffman
分类: cs.LG, cs.AI
发布日期: 2026-02-28
💡 一句话要点
揭示Transformer不变算法核心:跨训练和尺度共享的低维结构
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Transformer模型 机制可解释性 算法核心 低维不变量 Grokking 语言模型 主谓一致 模型泛化
📋 核心要点
- 大型语言模型内部机制复杂,存在多种权重配置实现相同功能的挑战,难以确定哪些结构反映了计算本质。
- 论文提出提取“算法核心”的方法,即任务性能所必需且充分的紧凑子空间,以揭示Transformer的计算本质。
- 实验表明,独立训练的Transformer收敛到相同的算法核心,GPT-2通过单个轴控制主谓一致,揭示了跨训练和尺度的不变性。
📝 摘要(中文)
大型语言模型展现了复杂的能力,但理解其内部工作机制仍然是一个核心挑战。一个根本性的障碍是,训练选择的是行为而非电路,因此许多权重配置可以实现相同的功能。哪些内部结构反映了计算,哪些是特定训练运行的偶然结果?本文提取了算法核心:完成任务所必需且充分的紧凑子空间。独立训练的Transformer学习不同的权重,但收敛到相同的核心。马尔可夫链Transformer将3D核心嵌入到几乎正交的子空间中,但恢复了相同的跃迁谱。模块化加法Transformer在Grokking时发现了紧凑的循环算子,随后膨胀,产生了一个记忆到泛化过渡的预测模型。GPT-2语言模型通过单个轴控制主谓一致,当翻转该轴时,会在跨尺度的生成过程中反转语法数量。这些结果揭示了跨训练运行和尺度持续存在的低维不变量,表明Transformer计算是围绕紧凑的、共享的算法结构组织的。机制可解释性可以受益于针对这些不变量(计算本质),而不是特定于实现的细节。
🔬 方法详解
问题定义:理解大型语言模型(LLM)的内部工作机制是一个核心挑战。由于训练过程倾向于选择行为而非特定的电路实现,因此存在多种权重配置可以实现相同的功能。这使得难以区分哪些内部结构是计算的本质反映,哪些是特定训练运行的偶然结果。现有方法缺乏有效手段来识别和提取LLM中真正重要的计算结构。
核心思路:论文的核心思路是提取“算法核心”,即完成特定任务所必需且充分的紧凑子空间。通过识别这些核心,可以揭示Transformer计算的本质,并区分重要的计算结构和特定实现的细节。论文假设,尽管独立训练的Transformer可能学习到不同的权重,但它们会收敛到相同的算法核心。
技术框架:论文通过以下几个方面来验证其核心思路:1) 研究独立训练的Transformer在学习相同任务时是否收敛到相同的算法核心;2) 分析马尔可夫链Transformer如何嵌入和恢复相同的跃迁谱;3) 研究模块化加法Transformer在Grokking过程中循环算子的演变;4) 分析GPT-2语言模型中控制主谓一致的机制。通过这些分析,论文旨在揭示Transformer计算中存在的低维不变量。
关键创新:论文最重要的技术创新点在于提出了“算法核心”的概念,并提供了一种提取和分析这些核心的方法。与以往关注特定权重配置或电路实现的研究不同,该论文关注的是跨训练运行和尺度持续存在的低维不变量,这有助于更深入地理解Transformer的计算本质。
关键设计:论文使用了多种技术手段来提取和分析算法核心,包括:1) 子空间分析,用于识别完成任务所必需的紧凑子空间;2) 谱分析,用于研究马尔可夫链Transformer的跃迁谱;3) 动态分析,用于研究模块化加法Transformer在Grokking过程中的演变;4) 轴向分析,用于研究GPT-2语言模型中控制主谓一致的机制。具体的参数设置、损失函数、网络结构等细节取决于具体的实验设置,论文中针对不同的任务和模型进行了相应的调整。
🖼️ 关键图片
📊 实验亮点
论文的主要实验结果包括:独立训练的Transformer收敛到相同的算法核心;马尔可夫链Transformer将3D核心嵌入到几乎正交的子空间中,但恢复了相同的跃迁谱;模块化加法Transformer在Grokking时发现了紧凑的循环算子;GPT-2语言模型通过单个轴控制主谓一致,翻转该轴会反转语法数量。这些结果表明,Transformer计算是围绕紧凑的、共享的算法结构组织的。
🎯 应用场景
该研究成果可应用于提升Transformer模型的机制可解释性,帮助研究人员更好地理解模型的内部工作机制。通过关注算法核心,可以更有效地进行模型调试、优化和安全验证。此外,该研究还有助于开发更高效、更鲁棒的Transformer模型,并为未来的AI系统设计提供新的思路。
📄 摘要(原文)
Large language models exhibit sophisticated capabilities, yet understanding how they work internally remains a central challenge. A fundamental obstacle is that training selects for behavior, not circuitry, so many weight configurations can implement the same function. Which internal structures reflect the computation, and which are accidents of a particular training run? This work extracts algorithmic cores: compact subspaces necessary and sufficient for task performance. Independently trained transformers learn different weights but converge to the same cores. Markov-chain transformers embed 3D cores in nearly orthogonal subspaces yet recover identical transition spectra. Modular-addition transformers discover compact cyclic operators at grokking that later inflate, yielding a predictive model of the memorization-to-generalization transition. GPT-2 language models govern subject-verb agreement through a single axis that, when flipped, inverts grammatical number throughout generation across scales. These results reveal low-dimensional invariants that persist across training runs and scales, suggesting that transformer computations are organized around compact, shared algorithmic structures. Mechanistic interpretability could benefit from targeting such invariants -- the computational essence -- rather than implementation-specific details.