Self-Attention as a Covariance Readout: A Unified View of In-Context Learning and Repetition

📄 arXiv: 2605.10466v1 📥 PDF

作者: Haoren Xu, Guanhua Fang

分类: cs.LG

发布日期: 2026-05-11


💡 一句话要点

揭示自注意力机制的协方差读取本质:统一解释上下文学习与重复生成现象

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自注意力机制 上下文学习 协方差读取 Transformer理论 模式坍塌 统计学习理论 动力系统

📋 核心要点

  1. 现有研究对大模型ICL和重复生成的内在机制缺乏统一的数学解释,难以从理论层面揭示模型如何处理长上下文信息。
  2. 论文证明了Softmax注意力在长上下文极限下等价于输入协方差的线性读取,将复杂的注意力计算简化为二阶统计量的处理。
  3. 研究揭示了ICL本质上是梯度下降的迭代过程,而重复生成则是该机制在深层网络中导致状态收敛至确定性轨道的必然结果。

📝 摘要(中文)

大型语言模型展现出两种看似无关的显著行为:上下文学习(ICL)和重复生成。在这两种情况下,模型表现得仿佛已将上下文总结为群体层面的统计量,并丢弃了具体的词元细节。本文探讨了这种“总结与遗忘”机制是否源于注意力机制本身,并给出了肯定的回答。在平稳、遍历且椭圆分布的输入假设下,Softmax注意力输出几乎必然收敛于 Θ_VΣΘ_KᵀΘ_Q x_t,其中 Σ 为输入协方差;因此,长上下文极限是输入二阶统计量的线性读取。由此得出两个结论:(i) 对于上下文线性回归,单个Softmax头可实现一步群体梯度下降,堆叠此类头可实现多步迭代;(ii) 这种读取机制在L层Transformer中传播,使终端隐藏状态以 1/t 的速率收敛至当前词元的确定性函数,导致自回归生成渐进退化为一阶马尔可夫链,从而为重复和模式坍塌提供了结构性解释。这两个现象由此被统一为协方差读取原则的两个侧面。

🔬 方法详解

问题定义:论文旨在解决大模型在处理长上下文时,如何从数学上统一解释“上下文学习(ICL)”与“重复生成(Repetition)”这两种看似矛盾的行为,并探究注意力机制在长序列极限下的演化规律。

核心思路:作者提出“协方差读取(Covariance Readout)”假设,认为注意力机制在长序列下会忽略具体的词元细节,转而提取输入的二阶统计量(协方差矩阵)。这种机制将Transformer的注意力层转化为一种统计推断工具。

技术框架:基于平稳、遍历且椭圆分布的输入假设,通过数学推导证明Softmax注意力输出收敛至 Θ_VΣΘ_KᵀΘ_Q x_t。在ICL场景下,通过残差连接堆叠注意力头,模拟多步梯度下降过程;在生成场景下,分析隐藏状态随层数增加而向确定性轨道收敛的动力学过程。

关键创新:首次从理论上证明了Transformer的注意力机制在长上下文极限下等价于对输入协方差的线性读取,成功将ICL的优化能力与重复生成的模式坍塌现象统一在同一数学框架下。

关键设计:利用椭圆分布假设简化注意力算子,通过分析 1/t 速率下的终端隐藏状态演化,揭示了模型如何从处理复杂上下文退化为一阶马尔可夫链,从而解释了生成过程中的重复现象。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过严谨的数学推导,证明了Softmax注意力在长序列极限下收敛于输入协方差的线性读取。实验与理论分析表明,单头注意力可实现一步梯度下降,而深层堆叠则对应多步迭代。此外,该模型成功解释了生成过程中隐藏状态向确定性轨道收敛的动力学机制,为理解模型性能退化提供了量化依据。

🎯 应用场景

该研究为理解大模型推理机制提供了坚实的理论基础,有助于优化长上下文窗口的注意力计算效率。在实际应用中,该理论可指导如何通过调整注意力机制的统计特性来缓解模型生成中的重复与模式坍塌问题,并为设计更高效的上下文学习算法提供理论支撑。

📄 摘要(原文)

Large language models (LLMs) exhibit two striking and ostensibly unrelated behaviours: in-context learning (ICL) and repetitive generation. In both, the model behaves as though it had summarised the context into a population-level statistic and discarded token-level detail. We ask whether this ``summarisation and forgetting'' can be derived from the attention mechanism itself, and answer in the affirmative. Under stationary, ergodic and elliptical inputs, the softmax attention output converges almost surely to $Θ_VΣΘ_K^{\top}Θ_Q x_t$, where $Σ$ is the input covariance; the long-context limit is therefore a linear readout of the input's second-order statistics. Two consequences follow. (i) For in-context linear regression, a single softmax head can implement one step of population gradient descent. Stacking such heads with residual connections iterates this update and implements multiple gradient descent steps. (ii) Propagated across an $L$-layer transformer, this readout drives the terminal hidden state at the parametric $1/t$ rate to a deterministic function of the current token alone, so that autoregressive generation collapses asymptotically to a first-order Markov chain whose attracting orbits furnish a structural account of repetition and mode collapse. The two phenomena thus emerge as facets of a single covariance-readout principle.