Gating Enables Curvature: A Geometric Expressivity Gap in Attention
作者: Satwik Bathula, Anand A. Joshi
分类: cs.LG, stat.ML
发布日期: 2026-04-16
备注: 41 pages, 9 figures
💡 一句话要点
揭示门控机制在Attention中的几何表达能力差距,实现非平坦流形建模
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 注意力机制 门控机制 几何表达能力 Fisher-Rao几何 非线性建模
📋 核心要点
- 现有注意力机制缺乏对几何表达能力的深入理解,限制了模型在复杂任务中的性能。
- 论文通过引入乘性门控机制,使注意力模型能够表达非平坦几何,从而提升模型的表达能力。
- 实验证明,门控模型在非线性决策边界任务上表现更优,并揭示了曲率随网络深度累积的现象。
📝 摘要(中文)
乘性门控广泛应用于神经架构中,最近也被应用于注意力层,以提高大型语言模型的性能和训练稳定性。尽管门控注意力取得了成功,但其数学含义仍然知之甚少。本文通过将输出建模为高斯分布的均值参数,并分析由此产生的Fisher-Rao几何,从几何角度研究注意力机制。结果表明,由于其仿射结构,无门控注意力算子被限制在本质上是平坦的统计流形上,而乘性门控能够实现非平坦几何,包括在无门控设置中无法实现的具有正曲率的流形。这些结果确立了无门控和门控注意力之间的几何表达能力差距。实验表明,门控模型在需要非线性决策边界的任务上表现出更高的表示曲率和改进的性能,而在具有线性决策边界的任务上没有提供一致的优势。此外,我们确定了一种结构化机制,其中曲率在组合下累积,产生系统的深度放大效应。
🔬 方法详解
问题定义:现有无门控注意力机制由于其固有的仿射结构,在表示学习时被限制在本质平坦的统计流形上。这意味着模型无法有效地捕捉数据中的复杂非线性关系,从而限制了其在需要复杂决策边界的任务中的表现。论文旨在解决这一问题,即如何提升注意力机制的几何表达能力,使其能够建模更复杂的非线性关系。
核心思路:论文的核心思路是通过在注意力机制中引入乘性门控,打破其仿射结构的限制,从而使其能够表达非平坦的几何结构,包括具有正曲率的流形。这种非平坦的几何表达能力使得模型能够更好地捕捉数据中的非线性关系,从而提升其在复杂任务中的表现。
技术框架:论文的技术框架主要包括以下几个部分:1) 将注意力机制的输出建模为高斯分布的均值参数;2) 分析由此产生的Fisher-Rao几何,研究其曲率特性;3) 引入乘性门控机制,改变注意力机制的几何结构;4) 通过实验验证门控机制对模型性能的影响。整体流程是从理论分析入手,然后通过实验验证理论结果。
关键创新:论文最重要的技术创新点在于揭示了门控机制在注意力机制中的几何意义,即门控机制能够打破注意力机制的仿射结构限制,使其能够表达非平坦的几何结构。这种几何表达能力的提升是门控注意力机制优于无门控注意力机制的关键原因。
关键设计:论文的关键设计包括:1) 使用Fisher-Rao几何来分析注意力机制的几何结构;2) 引入乘性门控机制,具体实现方式未知,论文中可能没有详细描述;3) 设计实验来验证门控机制对模型性能的影响,包括在线性决策边界和非线性决策边界的任务上的表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,门控模型在需要非线性决策边界的任务上表现出更高的表示曲率和改进的性能,而在具有线性决策边界的任务上没有提供一致的优势。此外,论文还发现了一种结构化机制,其中曲率在组合下累积,产生系统的深度放大效应,这为理解深度学习模型的行为提供了新的视角。
🎯 应用场景
该研究成果可应用于各种需要复杂非线性关系建模的领域,例如自然语言处理、计算机视觉和强化学习。通过提升注意力机制的几何表达能力,可以提高模型在复杂任务中的性能,例如机器翻译、图像识别和智能决策。未来,该研究可以进一步推广到其他类型的神经网络架构中,以提升其表达能力。
📄 摘要(原文)
Multiplicative gating is widely used in neural architectures and has recently been applied to attention layers to improve performance and training stability in large language models. Despite the success of gated attention, the mathematical implications of gated attention mechanisms remain poorly understood. We study attention through the geometry of its representations by modeling outputs as mean parameters of Gaussian distributions and analyzing the induced Fisher--Rao geometry. We show that ungated attention operator is restricted to intrinsically flat statistical manifolds due to its affine structure, while multiplicative gating enables non-flat geometries, including positively curved manifolds that are unattainable in the ungated setting. These results establish a geometric expressivity gap between ungated and gated attention. Empirically, we show that gated models exhibit higher representation curvature and improved performance on tasks requiring nonlinear decision boundaries whereas they provide no consistent advantage on tasks with linear decision boundaries. Furthermore, we identify a structured regime in which curvature accumulates under composition, yielding a systematic depth amplification effect.