Transformers converge to invariant algorithmic cores

作者: Joshua S. Schiffman

分类: cs.LG, cs.AI

发布日期: 2026-02-26

💡 一句话要点

揭示Transformer不变算法核心：跨训练和尺度共享的低维结构

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Transformer 算法核心 可解释性 低维结构 不变性 语言模型 机制理解

📋 核心要点

大型语言模型内部机制复杂，难以理解哪些结构是计算本质，哪些是训练偶然结果。
论文提出提取“算法核心”的方法，即任务性能必需且充分的紧凑子空间，揭示模型内在计算逻辑。
实验表明，独立训练的Transformer收敛到相同算法核心，GPT-2通过单轴控制主谓一致，验证了低维不变性的存在。

📝 摘要（中文）

大型语言模型展现出复杂的能力，但理解其内部工作机制仍然是一项核心挑战。一个根本性的障碍是，训练选择的是行为而非电路，因此许多权重配置可以实现相同的功能。哪些内部结构反映了计算，哪些是特定训练运行的偶然结果？本研究提取了算法核心：执行任务所必需且充分的紧凑子空间。独立训练的Transformer学习不同的权重，但收敛到相同的核心。马尔可夫链Transformer将3D核心嵌入到几乎正交的子空间中，但恢复了相同的跃迁谱。模块化加法Transformer在Grokking时发现紧凑的循环算子，随后膨胀，从而产生记忆到泛化过渡的预测模型。GPT-2语言模型通过单个轴控制主谓一致，当翻转该轴时，会在整个生成过程中反转语法数量。这些结果揭示了跨训练运行和尺度持续存在的低维不变性，表明Transformer计算围绕紧凑的共享算法结构组织。机制可解释性可以受益于针对这些不变性（计算本质），而不是特定于实现的细节。

🔬 方法详解

问题定义：现有大型语言模型虽然能力强大，但其内部工作机制仍然是个黑盒。训练过程倾向于选择行为而非电路，导致多种权重配置可以实现相同的功能。因此，难以区分哪些内部结构是模型计算的本质，哪些是特定训练运行的偶然结果。现有方法缺乏有效手段来识别和提取模型的核心计算逻辑。

核心思路：论文的核心思路是提取“算法核心”，即模型完成特定任务所必需且充分的最小子空间。通过寻找在不同训练运行和模型尺度下保持不变的低维结构，揭示Transformer的内在计算本质。这种方法旨在超越特定实现的细节，关注模型的核心算法逻辑。

技术框架：论文通过分析不同类型的Transformer模型，包括马尔可夫链Transformer、模块化加法Transformer和GPT-2，来提取算法核心。对于每种模型，研究人员设计特定的实验来识别和分析模型内部的关键结构。例如，对于GPT-2，他们通过翻转控制主谓一致的轴来验证其作用。整体流程包括：1) 设计特定任务；2) 训练多个独立的Transformer模型；3) 分析模型内部结构，寻找不变的低维子空间；4) 通过实验验证这些子空间对任务性能的重要性。

关键创新：论文最重要的技术创新点在于提出了“算法核心”的概念，并提供了一种提取和分析算法核心的方法。与以往关注模型整体权重或特定神经元的研究不同，该方法关注模型内部的低维不变结构，从而更有效地揭示模型的内在计算逻辑。这种方法能够跨越不同的训练运行和模型尺度，找到共享的算法结构。

关键设计：论文的关键设计包括：1) 使用不同类型的Transformer模型，以验证算法核心的普适性；2) 设计特定的实验来识别和分析模型内部的关键结构，例如，通过翻转GPT-2中控制主谓一致的轴来验证其作用；3) 使用马尔可夫链Transformer来研究算法核心在不同子空间中的嵌入方式；4) 分析模块化加法Transformer在Grokking过程中算法核心的变化。

🖼️ 关键图片

📊 实验亮点

研究发现，独立训练的Transformer模型收敛到相同的算法核心，即使这些核心嵌入在几乎正交的子空间中。对于GPT-2，研究人员发现一个单轴控制主谓一致，翻转该轴可以反转整个生成过程中的语法数量。模块化加法Transformer在Grokking时发现紧凑的循环算子，随后膨胀，从而产生记忆到泛化过渡的预测模型。

🎯 应用场景

该研究成果可应用于提升Transformer模型的可解释性和可控性。通过识别和提取算法核心，可以更好地理解模型的决策过程，并对其行为进行更精确的控制。此外，该研究还可以帮助设计更高效、更鲁棒的Transformer模型，并为模型压缩和知识迁移提供新的思路。

📄 摘要（原文）

Large language models exhibit sophisticated capabilities, yet understanding how they work internally remains a central challenge. A fundamental obstacle is that training selects for behavior, not circuitry, so many weight configurations can implement the same function. Which internal structures reflect the computation, and which are accidents of a particular training run? This work extracts algorithmic cores: compact subspaces necessary and sufficient for task performance. Independently trained transformers learn different weights but converge to the same cores. Markov-chain transformers embed 3D cores in nearly orthogonal subspaces yet recover identical transition spectra. Modular-addition transformers discover compact cyclic operators at grokking that later inflate, yielding a predictive model of the memorization-to-generalization transition. GPT-2 language models govern subject-verb agreement through a single axis that, when flipped, inverts grammatical number throughout generation across scales. These results reveal low-dimensional invariants that persist across training runs and scales, suggesting that transformer computations are organized around compact, shared algorithmic structures. Mechanistic interpretability could benefit from targeting such invariants -- the computational essence -- rather than implementation-specific details.

Transformers converge to invariant algorithmic cores

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理