LaplacianFormer:Rethinking Linear Attention with Laplacian Kernel
作者: Zhe Feng, Sen Lian, Changwei Wang, Muyang Zhang, Tianlong Tan, Rongtao Xu, Weiliang Meng, Xiaopeng Zhang
分类: cs.CV, cs.AI
发布日期: 2026-04-22
💡 一句话要点
LaplacianFormer:提出基于拉普拉斯核的线性注意力机制,提升Transformer在高分辨率视觉任务中的性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 线性注意力 拉普拉斯核 Transformer 高分辨率图像 Nyström近似
📋 核心要点
- 现有线性注意力方法使用高斯核近似softmax,但缺乏理论依据,且易过度抑制中等范围token交互。
- LaplacianFormer采用拉普拉斯核替代softmax,并设计单射特征映射,保留细粒度token信息,提升表达能力。
- 通过Nyström近似和Newton-Schulz迭代,避免矩阵求逆和SVD,并使用CUDA优化,实现高效计算,ImageNet实验验证了性能。
📝 摘要(中文)
Softmax注意力机制的二次复杂度是Transformer扩展到高分辨率视觉任务的主要障碍。现有的线性注意力变体通常用高斯核代替softmax来降低复杂度,但这种近似缺乏理论基础,并且倾向于过度抑制中等范围的token交互。我们提出了LaplacianFormer,这是一种Transformer变体,它采用拉普拉斯核作为softmax的一种有原则的替代方案,其动机来自经验观察和理论分析。为了解决低秩近似下的表达能力下降问题,我们引入了一种可证明的单射特征映射,该映射保留了细粒度的token信息。为了实现高效计算,我们采用了核矩阵的Nyström近似,并使用Newton-Schulz迭代求解得到的系统,避免了代价高昂的矩阵求逆和SVD。我们进一步开发了定制的CUDA实现,用于内核和求解器,从而实现了适用于边缘部署的高吞吐量正向和反向传递。在ImageNet上的实验表明,LaplacianFormer在提高注意力表达能力的同时,实现了强大的性能-效率权衡。
🔬 方法详解
问题定义:现有Transformer模型中的softmax注意力机制在高分辨率图像处理任务中面临计算复杂度过高的问题(二次复杂度)。为了降低计算复杂度,现有线性注意力方法通常使用高斯核来近似softmax,但这种近似方法缺乏理论支撑,并且容易过度抑制中等范围内的token交互,导致模型表达能力下降。
核心思路:LaplacianFormer的核心思路是使用拉普拉斯核作为softmax注意力机制的一种有原则的替代方案。作者通过理论分析和实验观察发现,拉普拉斯核能够更好地捕捉token之间的关系,避免过度抑制中等范围的交互。此外,为了解决低秩近似带来的表达能力下降问题,作者设计了一种可证明的单射特征映射,以保留细粒度的token信息。
技术框架:LaplacianFormer的整体架构与标准的Transformer类似,主要区别在于注意力机制的实现方式。首先,使用单射特征映射对输入token进行编码。然后,使用拉普拉斯核计算token之间的相似度。为了降低计算复杂度,采用Nyström近似方法对核矩阵进行近似。最后,使用Newton-Schulz迭代方法求解线性系统,得到注意力权重。整个过程可以通过定制的CUDA实现进行加速。
关键创新:LaplacianFormer的关键创新在于以下几个方面:1) 提出了使用拉普拉斯核替代softmax注意力机制,并给出了理论依据。2) 设计了一种可证明的单射特征映射,解决了低秩近似带来的表达能力下降问题。3) 采用Nyström近似和Newton-Schulz迭代方法,实现了高效的计算。与现有方法相比,LaplacianFormer在理论上更加严谨,在性能上更加高效。
关键设计:LaplacianFormer的关键设计包括:1) 单射特征映射的具体形式,需要保证能够保留细粒度的token信息。2) Nyström近似中landmark点的选择策略,需要保证能够有效地近似核矩阵。3) Newton-Schulz迭代的迭代次数和收敛条件,需要在计算效率和精度之间进行权衡。4) CUDA实现的具体细节,需要充分利用GPU的并行计算能力。
🖼️ 关键图片
📊 实验亮点
LaplacianFormer在ImageNet图像分类任务上取得了显著的性能提升。实验结果表明,LaplacianFormer在保持甚至提高模型精度的同时,显著降低了计算复杂度。与传统的softmax注意力机制相比,LaplacianFormer能够实现更快的推理速度和更低的内存占用。此外,LaplacianFormer在不同的模型尺寸和数据集上都表现出了良好的泛化能力。
🎯 应用场景
LaplacianFormer具有广泛的应用前景,尤其是在需要处理高分辨率图像或长序列数据的场景中,例如:图像识别、目标检测、语义分割、视频理解、自然语言处理等。该方法可以降低计算复杂度,提高模型效率,使其更适用于边缘设备和资源受限的环境。未来,LaplacianFormer有望成为一种通用的注意力机制,应用于各种Transformer模型中。
📄 摘要(原文)
The quadratic complexity of softmax attention presents a major obstacle for scaling Transformers to high-resolution vision tasks. Existing linear attention variants often replace the softmax with Gaussian kernels to reduce complexity, but such approximations lack theoretical grounding and tend to oversuppress mid-range token interactions. We propose LaplacianFormer, a Transformer variant that employs a Laplacian kernel as a principled alternative to softmax, motivated by empirical observations and theoretical analysis. To address expressiveness degradation under low-rank approximations, we introduce a provably injective feature map that retains fine-grained token information. For efficient computation, we adopt a Nyström approximation of the kernel matrix and solve the resulting system using Newton--Schulz iteration, avoiding costly matrix inversion and SVD. We further develop custom CUDA implementations for both the kernel and solver, enabling high-throughput forward and backward passes suitable for edge deployment. Experiments on ImageNet show that LaplacianFormer achieves strong performance-efficiency trade-offs while improving attention expressiveness.