Transformers converge to invariant algorithmic cores
作者: Joshua S. Schiffman
分类: cs.LG, cs.AI
发布日期: 2026-02-26
💡 一句话要点
揭示Transformer不变算法核心:跨训练和尺度共享的低维结构
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Transformer 算法核心 可解释性 低维结构 不变性 语言模型 机制理解
📋 核心要点
- 大型语言模型内部机制复杂,难以理解哪些结构是计算本质,哪些是训练偶然结果。
- 论文提出提取“算法核心”的方法,即任务性能必需且充分的紧凑子空间,揭示模型内在计算逻辑。
- 实验表明,独立训练的Transformer收敛到相同算法核心,GPT-2通过单轴控制主谓一致,验证了低维不变性的存在。
📝 摘要(中文)
大型语言模型展现出复杂的能力,但理解其内部工作机制仍然是一项核心挑战。一个根本性的障碍是,训练选择的是行为而非电路,因此许多权重配置可以实现相同的功能。哪些内部结构反映了计算,哪些是特定训练运行的偶然结果?本研究提取了算法核心:执行任务所必需且充分的紧凑子空间。独立训练的Transformer学习不同的权重,但收敛到相同的核心。马尔可夫链Transformer将3D核心嵌入到几乎正交的子空间中,但恢复了相同的跃迁谱。模块化加法Transformer在Grokking时发现紧凑的循环算子,随后膨胀,从而产生记忆到泛化过渡的预测模型。GPT-2语言模型通过单个轴控制主谓一致,当翻转该轴时,会在整个生成过程中反转语法数量。这些结果揭示了跨训练运行和尺度持续存在的低维不变性,表明Transformer计算围绕紧凑的共享算法结构组织。机制可解释性可以受益于针对这些不变性(计算本质),而不是特定于实现的细节。
🔬 方法详解
问题定义:现有大型语言模型虽然能力强大,但其内部工作机制仍然是个黑盒。训练过程倾向于选择行为而非电路,导致多种权重配置可以实现相同的功能。因此,难以区分哪些内部结构是模型计算的本质,哪些是特定训练运行的偶然结果。现有方法缺乏有效手段来识别和提取模型的核心计算逻辑。
核心思路:论文的核心思路是提取“算法核心”,即模型完成特定任务所必需且充分的最小子空间。通过寻找在不同训练运行和模型尺度下保持不变的低维结构,揭示Transformer的内在计算本质。这种方法旨在超越特定实现的细节,关注模型的核心算法逻辑。
技术框架:论文通过分析不同类型的Transformer模型,包括马尔可夫链Transformer、模块化加法Transformer和GPT-2,来提取算法核心。对于每种模型,研究人员设计特定的实验来识别和分析模型内部的关键结构。例如,对于GPT-2,他们通过翻转控制主谓一致的轴来验证其作用。整体流程包括:1) 设计特定任务;2) 训练多个独立的Transformer模型;3) 分析模型内部结构,寻找不变的低维子空间;4) 通过实验验证这些子空间对任务性能的重要性。
关键创新:论文最重要的技术创新点在于提出了“算法核心”的概念,并提供了一种提取和分析算法核心的方法。与以往关注模型整体权重或特定神经元的研究不同,该方法关注模型内部的低维不变结构,从而更有效地揭示模型的内在计算逻辑。这种方法能够跨越不同的训练运行和模型尺度,找到共享的算法结构。
关键设计:论文的关键设计包括:1) 使用不同类型的Transformer模型,以验证算法核心的普适性;2) 设计特定的实验来识别和分析模型内部的关键结构,例如,通过翻转GPT-2中控制主谓一致的轴来验证其作用;3) 使用马尔可夫链Transformer来研究算法核心在不同子空间中的嵌入方式;4) 分析模块化加法Transformer在Grokking过程中算法核心的变化。
🖼️ 关键图片
📊 实验亮点
研究发现,独立训练的Transformer模型收敛到相同的算法核心,即使这些核心嵌入在几乎正交的子空间中。对于GPT-2,研究人员发现一个单轴控制主谓一致,翻转该轴可以反转整个生成过程中的语法数量。模块化加法Transformer在Grokking时发现紧凑的循环算子,随后膨胀,从而产生记忆到泛化过渡的预测模型。
🎯 应用场景
该研究成果可应用于提升Transformer模型的可解释性和可控性。通过识别和提取算法核心,可以更好地理解模型的决策过程,并对其行为进行更精确的控制。此外,该研究还可以帮助设计更高效、更鲁棒的Transformer模型,并为模型压缩和知识迁移提供新的思路。
📄 摘要(原文)
Large language models exhibit sophisticated capabilities, yet understanding how they work internally remains a central challenge. A fundamental obstacle is that training selects for behavior, not circuitry, so many weight configurations can implement the same function. Which internal structures reflect the computation, and which are accidents of a particular training run? This work extracts algorithmic cores: compact subspaces necessary and sufficient for task performance. Independently trained transformers learn different weights but converge to the same cores. Markov-chain transformers embed 3D cores in nearly orthogonal subspaces yet recover identical transition spectra. Modular-addition transformers discover compact cyclic operators at grokking that later inflate, yielding a predictive model of the memorization-to-generalization transition. GPT-2 language models govern subject-verb agreement through a single axis that, when flipped, inverts grammatical number throughout generation across scales. These results reveal low-dimensional invariants that persist across training runs and scales, suggesting that transformer computations are organized around compact, shared algorithmic structures. Mechanistic interpretability could benefit from targeting such invariants -- the computational essence -- rather than implementation-specific details.