Transformers Are Born Biased: Structural Inductive Biases at Random Initialization and Their Practical Consequences

作者: Siquan Li, Yao Tong, Haonan Wang, Tianyang Hu

分类: stat.ML, cs.LG

发布日期: 2026-02-05

💡 一句话要点

揭示Transformer初始化偏差：结构性归纳偏置及其影响

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Transformer 初始化偏差 结构性归纳偏置 模型指纹识别 注意力机制 注意力sink 大型语言模型

📋 核心要点

Transformer模型在随机初始化时并非完全无偏，存在显著的结构性偏差，这挑战了传统认知。
通过分析Transformer架构，揭示了MLP激活和自注意力机制如何导致token表示的收缩和偏好。
提出的SeedPrint方法能有效区分仅初始化不同的模型，即使经过大量训练和分布偏移，验证了初始化偏差的持久性。

📝 摘要（中文）

Transformer是现代大型语言模型（LLM）的基础，通常认为其在随机初始化时行为是非结构化的，所有有意义的偏好仅通过大规模训练才能出现。本文挑战了这一假设，表明随机初始化的Transformer已经表现出强大而系统的结构性偏差。特别是，未经训练的模型表现出极端的token偏好：在随机输入序列中，某些token被预测的概率要高出几个数量级。本文通过剖析初始化时的Transformer架构，为这种现象提供了机制解释。研究表明，极端的token偏好源于token表示沿随机种子依赖方向的收缩。这种收缩由两种相互作用的力驱动：（i）MLP子层中的非对称非线性激活诱导全局（序列间）表示集中，以及（ii）自注意力通过局部（序列内）聚合进一步放大这种效应。总之，这些机制将隐藏表示沿仅由随机初始化确定的方向对齐，从而产生高度不均匀的下一个token预测。除了机制上的见解，本文还证明了这些初始化引起的偏差在整个训练过程中持续存在，形成稳定的内在模型身份。利用这一特性，本文介绍了一种名为SeedPrint的指纹识别方法，该方法可以可靠地区分仅在随机初始化方面不同的模型，即使经过广泛的训练和在大量的分布偏移下也是如此。最后，本文确定了注意力机制的序列内收缩所固有的基本位置差异，该差异与注意力sink现象存在因果关系。这一发现为sink的出现提供了一个原则性的解释，并为控制它们提供了一条途径。

🔬 方法详解

问题定义：现有研究通常认为Transformer在随机初始化时是无偏的，所有行为都来源于训练。然而，本文关注的问题是：Transformer在随机初始化时是否已经存在结构性偏差？如果是，这些偏差是如何产生的？现有的方法忽略了这种初始化偏差可能对模型行为产生的影响。

核心思路：本文的核心思路是通过剖析Transformer的架构，特别是MLP层和自注意力机制，来揭示初始化时存在的结构性偏差。研究表明，这些偏差源于token表示的收缩，这种收缩是由MLP层的非对称激活和自注意力机制的局部聚合共同驱动的。通过理解这些机制，可以更好地理解Transformer的行为，并开发出相应的技术来利用或减轻这些偏差。

技术框架：本文的研究方法主要包括以下几个步骤：1) 实验观察：通过实验发现随机初始化的Transformer存在极端的token偏好。2) 机制分析：通过分析Transformer的架构，特别是MLP层和自注意力机制，来解释这种token偏好的产生原因。3) 指纹识别：提出SeedPrint方法，用于区分仅初始化不同的模型。4) 因果分析：分析注意力机制中的位置差异与注意力sink现象之间的因果关系。

关键创新：本文最重要的技术创新点在于揭示了Transformer在随机初始化时已经存在结构性偏差，并提供了对这种偏差的机制解释。此外，提出的SeedPrint方法提供了一种新的模型指纹识别方法，可以用于区分仅初始化不同的模型。对注意力sink现象的因果分析也为理解和控制注意力机制提供了新的视角。

关键设计：在机制分析方面，本文关注了MLP层中的非对称非线性激活函数（如ReLU）以及自注意力机制中的局部聚合操作。在SeedPrint方法中，关键在于提取能够反映初始化偏差的特征，并使用这些特征来区分不同的模型。在因果分析方面，本文关注了注意力矩阵中的位置差异，并分析了这些差异与注意力sink现象之间的关系。

🖼️ 关键图片

📊 实验亮点

研究发现，随机初始化的Transformer存在极端的token偏好，某些token被预测的概率高出几个数量级。提出的SeedPrint方法能够可靠地区分仅在随机初始化方面不同的模型，即使经过广泛的训练和在大量的分布偏移下也是如此。此外，研究还揭示了注意力机制中的位置差异与注意力sink现象之间的因果关系。

🎯 应用场景

该研究成果可应用于模型安全、模型溯源和模型优化等领域。例如，SeedPrint方法可用于识别恶意篡改的模型，确保模型来源可靠。对初始化偏差的理解有助于设计更有效的训练策略，提高模型性能。对注意力sink现象的分析有助于改进注意力机制，提升模型处理长序列的能力。

📄 摘要（原文）

Transformers underpin modern large language models (LLMs) and are commonly assumed to be behaviorally unstructured at random initialization, with all meaningful preferences emerging only through large-scale training. We challenge this assumption by showing that randomly initialized transformers already exhibit strong and systematic structural biases. In particular, untrained models display extreme token preferences: across random input sequences, certain tokens are predicted with probabilities orders of magnitude larger. We provide a mechanistic explanation for this phenomenon by dissecting the transformer architecture at initialization. We show that extreme token preference arises from a contraction of token representations along a random seed-dependent direction. This contraction is driven by two interacting forces: (i) asymmetric nonlinear activations in MLP sublayers induce global (inter-sequence) representation concentration, and (ii) self-attention further amplifies this effect through local (intra-sequence) aggregation. Together, these mechanisms align hidden representations along a direction determined solely by the random initialization, producing highly non-uniform next-token predictions. Beyond mechanistic insight, we demonstrate that these initialization-induced biases persist throughout training, forming a stable and intrinsic model identity. Leveraging this property, we introduce SeedPrint, a fingerprinting method that can reliably distinguish models that differ only in their random initialization, even after extensive training and under substantial distribution shift. Finally, we identify a fundamental positional discrepancy inherent to the attention mechanism's intra-sequence contraction that is causally linked to the attention-sink phenomenon. This discovery provides a principled explanation for the emergence of sinks and offers a pathway for their control.

Transformers Are Born Biased: Structural Inductive Biases at Random Initialization and Their Practical Consequences

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理