Dynamics of the Transformer Residual Stream: Coupling Spectral Geometry to Network Topology
作者: Jesseba Fernando, Grigori Guitchounts
分类: cs.LG, cs.AI
发布日期: 2026-05-14
💡 一句话要点
揭示Transformer残差流动态特性:耦合谱几何与网络拓扑结构
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 残差流 谱几何 雅可比矩阵 特征分解 网络拓扑 动态系统
📋 核心要点
- 现有方法在理解LLM层间计算传播时,依赖标量概括或近似线性化,无法揭示完整的谱几何结构。
- 本文通过雅可比特征分解,揭示了LLM训练过程中形成的单调谱梯度和低秩瓶颈。
- 实验表明,谱梯度和维度坍缩是学习到的,与网络拓扑结构相关,而非架构固有的。
📝 摘要(中文)
大型语言模型(LLM)能力强大,但其层间计算传播机制仍不清楚。现有研究将深度视为离散时间,残差流视为动态系统,每层的非线性更新具有局部线性描述。然而,之前的分析依赖于标量概括或近似线性化,导致对已训练LLM的完整谱几何结构未知。本文对三个生产规模的LLM进行了完整的雅可比特征分解,结果表明,训练在深度上安装了一个单调的谱梯度——从非正态、旋转主导的早期层到接近对称的后期层——以及一个累积的低秩瓶颈,将扰动引导到残差流有效维度的一小部分。实验表明,这种梯度和维度坍缩是学习到的,而非架构固有的,并且在移除结构化的非正态性后会大大消解。此外,本文还表明,图社区的拓扑位置可以预测雅可比矩阵是放大还是抑制它们,耦合的符号由局部算子类型决定,这种关系在初始化时不存在。这些结果揭示了LLM中学习到的谱几何结构,它将扰动传播和压缩与网络的函数拓扑结构联系起来。
🔬 方法详解
问题定义:现有方法难以理解大型语言模型(LLM)内部的计算传播机制,特别是残差流的动态特性。以往研究通常采用标量总结或近似线性化方法,无法充分揭示已训练LLM的完整谱几何结构,限制了对模型行为的深入理解。
核心思路:本文的核心思路是通过对LLM的雅可比矩阵进行特征分解,从而揭示其谱几何结构。通过分析特征值和特征向量,可以了解扰动在网络中的传播方式,以及不同层之间的信息流动模式。这种方法能够提供比以往方法更全面、更细致的视角,从而更好地理解LLM的内部运作机制。
技术框架:本文的技术框架主要包括以下几个步骤:1) 选择三个生产规模的LLM作为研究对象。2) 对每个LLM的每一层计算雅可比矩阵。3) 对雅可比矩阵进行特征分解,得到特征值和特征向量。4) 分析特征值和特征向量的分布,以及它们在不同层之间的变化趋势。5) 将谱几何结构与网络的拓扑结构进行关联,从而理解网络拓扑如何影响扰动传播和信息压缩。
关键创新:本文最重要的技术创新在于,通过雅可比特征分解,揭示了LLM中学习到的谱几何结构,并将其与网络的拓扑结构联系起来。具体来说,本文发现训练在深度上安装了一个单调的谱梯度,以及一个累积的低秩瓶颈。此外,本文还发现图社区的拓扑位置可以预测雅可比矩阵是放大还是抑制它们。这些发现为理解LLM的内部运作机制提供了新的视角。
关键设计:本文的关键设计包括:1) 选择生产规模的LLM,以保证研究结果的可靠性和泛化性。2) 使用完整的雅可比特征分解,而非近似线性化方法,以保证分析的准确性。3) 将谱几何结构与网络的拓扑结构进行关联,从而揭示网络拓扑对信息传播的影响。4) 通过实验验证了谱梯度和维度坍缩是学习到的,而非架构固有的。
🖼️ 关键图片
📊 实验亮点
实验结果表明,训练在LLM深度上安装了一个单调的谱梯度,从非正态的早期层到接近对称的后期层。同时,观察到一个累积的低秩瓶颈,将扰动引导到残差流有效维度的一小部分。移除结构化的非正态性后,这种梯度和维度坍缩会大大消解。
🎯 应用场景
该研究成果可应用于提升大型语言模型的鲁棒性和可解释性。通过理解残差流的动态特性,可以设计更有效的训练方法,提高模型对对抗性攻击的防御能力。此外,该研究也有助于开发更高效的模型压缩技术,降低LLM的部署成本。
📄 摘要(原文)
Large language models are remarkably capable, yet how computation propagates through their layers remains poorly understood. A growing line of work treats depth as discrete time and the residual stream as a dynamical system, where each layer's nonlinear update has a local linear description. However, previous analyses have relied on scalar summaries or approximate linearizations, leaving the full spectral geometry of trained LLMs unknown. We perform full Jacobian eigendecomposition across three production--scale LLMs and show that training installs a monotonic spectral gradient through depth -- from non-normal, rotation-dominated early layers to near--symmetric late layers -- together with a cumulative low-rank bottleneck that funnels perturbations into a small fraction of the residual stream's effective dimensions. Our experiments reveal that this gradient and the dimensional collapse are learned rather than architectural, and is largely dissolved when structured non-normality is removed. We further show that the topological positioning of graph communities predicts whether the Jacobian amplifies or suppresses them, with the sign of the coupling determined by the local operator type, a relationship absent at initialization. These results map a learned spectral geometry in LLMs that links perturbation propagation and compression to the network's functional topology.