LaplacianFormer:Rethinking Linear Attention with Laplacian Kernel

作者: Zhe Feng, Sen Lian, Changwei Wang, Muyang Zhang, Tianlong Tan, Rongtao Xu, Weiliang Meng, Xiaopeng Zhang

分类: cs.CV, cs.AI

发布日期: 2026-04-22

💡 一句话要点

LaplacianFormer：提出基于拉普拉斯核的线性注意力机制，提升Transformer在高分辨率视觉任务中的性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 线性注意力 拉普拉斯核 Transformer 高分辨率图像 Nyström近似

📋 核心要点

现有线性注意力方法使用高斯核近似softmax，但缺乏理论依据，且易过度抑制中等范围token交互。
LaplacianFormer采用拉普拉斯核替代softmax，并设计单射特征映射，保留细粒度token信息，提升表达能力。
通过Nyström近似和Newton-Schulz迭代，避免矩阵求逆和SVD，并使用CUDA优化，实现高效计算，ImageNet实验验证了性能。

📝 摘要（中文）

Softmax注意力机制的二次复杂度是Transformer扩展到高分辨率视觉任务的主要障碍。现有的线性注意力变体通常用高斯核代替softmax来降低复杂度，但这种近似缺乏理论基础，并且倾向于过度抑制中等范围的token交互。我们提出了LaplacianFormer，这是一种Transformer变体，它采用拉普拉斯核作为softmax的一种有原则的替代方案，其动机来自经验观察和理论分析。为了解决低秩近似下的表达能力下降问题，我们引入了一种可证明的单射特征映射，该映射保留了细粒度的token信息。为了实现高效计算，我们采用了核矩阵的Nyström近似，并使用Newton-Schulz迭代求解得到的系统，避免了代价高昂的矩阵求逆和SVD。我们进一步开发了定制的CUDA实现，用于内核和求解器，从而实现了适用于边缘部署的高吞吐量正向和反向传递。在ImageNet上的实验表明，LaplacianFormer在提高注意力表达能力的同时，实现了强大的性能-效率权衡。

🔬 方法详解

问题定义：现有Transformer模型中的softmax注意力机制在高分辨率图像处理任务中面临计算复杂度过高的问题（二次复杂度）。为了降低计算复杂度，现有线性注意力方法通常使用高斯核来近似softmax，但这种近似方法缺乏理论支撑，并且容易过度抑制中等范围内的token交互，导致模型表达能力下降。

核心思路：LaplacianFormer的核心思路是使用拉普拉斯核作为softmax注意力机制的一种有原则的替代方案。作者通过理论分析和实验观察发现，拉普拉斯核能够更好地捕捉token之间的关系，避免过度抑制中等范围的交互。此外，为了解决低秩近似带来的表达能力下降问题，作者设计了一种可证明的单射特征映射，以保留细粒度的token信息。

技术框架：LaplacianFormer的整体架构与标准的Transformer类似，主要区别在于注意力机制的实现方式。首先，使用单射特征映射对输入token进行编码。然后，使用拉普拉斯核计算token之间的相似度。为了降低计算复杂度，采用Nyström近似方法对核矩阵进行近似。最后，使用Newton-Schulz迭代方法求解线性系统，得到注意力权重。整个过程可以通过定制的CUDA实现进行加速。

关键创新：LaplacianFormer的关键创新在于以下几个方面：1) 提出了使用拉普拉斯核替代softmax注意力机制，并给出了理论依据。2) 设计了一种可证明的单射特征映射，解决了低秩近似带来的表达能力下降问题。3) 采用Nyström近似和Newton-Schulz迭代方法，实现了高效的计算。与现有方法相比，LaplacianFormer在理论上更加严谨，在性能上更加高效。

关键设计：LaplacianFormer的关键设计包括：1) 单射特征映射的具体形式，需要保证能够保留细粒度的token信息。2) Nyström近似中landmark点的选择策略，需要保证能够有效地近似核矩阵。3) Newton-Schulz迭代的迭代次数和收敛条件，需要在计算效率和精度之间进行权衡。4) CUDA实现的具体细节，需要充分利用GPU的并行计算能力。

🖼️ 关键图片

📊 实验亮点

LaplacianFormer在ImageNet图像分类任务上取得了显著的性能提升。实验结果表明，LaplacianFormer在保持甚至提高模型精度的同时，显著降低了计算复杂度。与传统的softmax注意力机制相比，LaplacianFormer能够实现更快的推理速度和更低的内存占用。此外，LaplacianFormer在不同的模型尺寸和数据集上都表现出了良好的泛化能力。

🎯 应用场景

LaplacianFormer具有广泛的应用前景，尤其是在需要处理高分辨率图像或长序列数据的场景中，例如：图像识别、目标检测、语义分割、视频理解、自然语言处理等。该方法可以降低计算复杂度，提高模型效率，使其更适用于边缘设备和资源受限的环境。未来，LaplacianFormer有望成为一种通用的注意力机制，应用于各种Transformer模型中。

📄 摘要（原文）

The quadratic complexity of softmax attention presents a major obstacle for scaling Transformers to high-resolution vision tasks. Existing linear attention variants often replace the softmax with Gaussian kernels to reduce complexity, but such approximations lack theoretical grounding and tend to oversuppress mid-range token interactions. We propose LaplacianFormer, a Transformer variant that employs a Laplacian kernel as a principled alternative to softmax, motivated by empirical observations and theoretical analysis. To address expressiveness degradation under low-rank approximations, we introduce a provably injective feature map that retains fine-grained token information. For efficient computation, we adopt a Nyström approximation of the kernel matrix and solve the resulting system using Newton--Schulz iteration, avoiding costly matrix inversion and SVD. We further develop custom CUDA implementations for both the kernel and solver, enabling high-throughput forward and backward passes suitable for edge deployment. Experiments on ImageNet show that LaplacianFormer achieves strong performance-efficiency trade-offs while improving attention expressiveness.

LaplacianFormer:Rethinking Linear Attention with Laplacian Kernel

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理