Influence Malleability in Linearized Attention: Dual Implications of Non-Convergent NTK Dynamics

📄 arXiv: 2603.13085v1 📥 PDF

作者: Jose Marie Antonio Miñoza, Paulo Mario P. Medina, Sebastian C. Ibañez

分类: cs.LG, cs.CV, math.NA, stat.ML

发布日期: 2026-03-13


💡 一句话要点

揭示线性化注意力机制非收敛NTK动态及其影响可塑性的双重含义

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 注意力机制 神经正切核 线性化 非收敛性 影响可塑性

📋 核心要点

  1. 注意力机制的非线性动态使其理论基础难以理解,现有方法缺乏对其收敛性的深入分析。
  2. 本文通过NTK框架分析线性化注意力机制,揭示其不收敛于无限宽度NTK极限,并量化了收敛所需的宽度。
  3. 实验表明,注意力机制具有比ReLU网络更高的影响可塑性,这既能提升性能,也增加了对抗攻击的风险。

📝 摘要(中文)

由于注意力机制复杂的非线性动态,理解其理论基础仍然具有挑战性。本文揭示了线性化注意力学习动态中的一个根本性权衡。通过神经正切核(NTK)框架对线性化注意力机制进行实证和理论分析,结果表明即使在较大的宽度下,线性化注意力也不会收敛到其无限宽度的NTK极限。谱放大结果正式确立了这一点:注意力转换将Gram矩阵的条件数立方化,需要宽度$m = Ω(κ^6)$才能收敛,这个阈值超过了自然图像数据集的任何实际宽度。这种非收敛性通过影响可塑性来表征,即动态改变对训练样本依赖的能力。注意力表现出比ReLU网络高6-9倍的可塑性,具有双重含义:其数据相关的核可以通过与任务结构对齐来减少近似误差,但这种相同的敏感性增加了对训练数据对抗性操纵的敏感性。这些发现表明,注意力的力量和脆弱性都源于其偏离核机制。

🔬 方法详解

问题定义:论文旨在解决注意力机制理论理解上的挑战,特别是其学习动态和收敛性问题。现有的注意力机制研究通常缺乏对其在无限宽度下的行为的精确分析,以及其对训练数据影响的敏感性分析。现有方法难以解释注意力机制的强大能力和潜在脆弱性之间的联系。

核心思路:论文的核心思路是通过线性化注意力机制,并利用神经正切核(NTK)理论来分析其学习动态。通过研究线性化注意力机制的谱特性,揭示其非收敛行为,并将其与影响可塑性联系起来。这种方法允许在理论上精确地量化注意力机制对训练数据变化的敏感程度。

技术框架:论文的技术框架主要包括以下几个部分:1) 线性化注意力机制的定义,将其与数据相关的Gram矩阵诱导的核相关联。2) 使用NTK理论分析线性化注意力机制的学习动态,特别是其谱特性和收敛性。3) 引入影响可塑性的概念,量化注意力机制对训练数据变化的敏感程度。4) 通过实验验证理论分析,并比较注意力机制和ReLU网络的性能和可塑性。

关键创新:论文最重要的技术创新点在于揭示了线性化注意力机制的非收敛行为,并将其与影响可塑性联系起来。具体来说,论文证明了注意力转换将Gram矩阵的条件数立方化,导致收敛所需的宽度远大于实际可行的宽度。此外,论文还量化了注意力机制的影响可塑性,表明其远高于ReLU网络。

关键设计:论文的关键设计包括:1) 使用线性化注意力机制,简化了分析的复杂性。2) 利用NTK理论,将注意力机制的学习动态与核函数联系起来。3) 定义了影响可塑性的指标,量化了注意力机制对训练数据变化的敏感程度。4) 通过谱分析,揭示了注意力机制的非收敛行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验证明,线性化注意力机制不收敛于其无限宽度NTK极限,需要极大的宽度才能收敛。实验还表明,注意力机制的影响可塑性比ReLU网络高6-9倍,这表明注意力机制对训练数据的变化非常敏感。这些结果为理解注意力机制的性能和脆弱性提供了新的视角。

🎯 应用场景

该研究成果可应用于提升深度学习模型的可解释性和鲁棒性。通过理解注意力机制的非收敛性和影响可塑性,可以设计更稳定的模型,并提高其对抗攻击的防御能力。此外,该研究还有助于开发更高效的训练方法,以及更好地利用注意力机制的优势。

📄 摘要(原文)

Understanding the theoretical foundations of attention mechanisms remains challenging due to their complex, non-linear dynamics. This work reveals a fundamental trade-off in the learning dynamics of linearized attention. Using a linearized attention mechanism with exact correspondence to a data-dependent Gram-induced kernel, both empirical and theoretical analysis through the Neural Tangent Kernel (NTK) framework shows that linearized attention does not converge to its infinite-width NTK limit, even at large widths. A spectral amplification result establishes this formally: the attention transformation cubes the Gram matrix's condition number, requiring width $m = Ω(κ^6)$ for convergence, a threshold that exceeds any practical width for natural image datasets. This non-convergence is characterized through influence malleability, the capacity to dynamically alter reliance on training examples. Attention exhibits 6--9$\times$ higher malleability than ReLU networks, with dual implications: its data-dependent kernel can reduce approximation error by aligning with task structure, but this same sensitivity increases susceptibility to adversarial manipulation of training data. These findings suggest that attention's power and vulnerability share a common origin in its departure from the kernel regime.