PolaFormer: Polarity-aware Linear Attention for Vision Transformers
作者: Weikang Meng, Yadan Luo, Xin Li, Dongmei Jiang, Zheng Zhang
分类: cs.CV, cs.AI
发布日期: 2025-01-25 (更新: 2025-03-04)
💡 一句话要点
PolaFormer:极性感知线性注意力机制,提升视觉Transformer性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 线性注意力 视觉Transformer 极性感知 图像分类 目标检测 注意力机制 深度学习
📋 核心要点
- 传统线性注意力因特征映射的非负约束和近似计算,导致信息损失,注意力图区分性降低。
- PolaFormer显式建模同号和异号的查询-键交互,全面覆盖关系信息,恢复注意力图的尖峰特性。
- 实验结果表明,PolaFormer在多个视觉任务上提升了性能,表达性和效率最高提升4.6%。
📝 摘要(中文)
线性注意力机制通过核化的特征映射将复杂度从序列长度的二次方降低到线性,成为softmax注意力的一种有前景的替代方案。然而,特征映射的非负约束和近似中使用的松弛指数函数导致与原始查询-键点积相比,显著的信息损失,从而导致具有更高熵的区分性较差的注意力图。为了解决查询-键对中负值驱动的缺失交互,我们提出了一种极性感知线性注意力机制,该机制显式地建模了同号和异号的查询-键交互,确保了关系信息的全面覆盖。此外,为了恢复注意力图的尖峰特性,我们提供了一个理论分析,证明存在一类元素级函数(具有正的一阶和二阶导数)可以降低注意力分布的熵。为了简单起见,并认识到每个维度的不同贡献,我们采用可学习的幂函数进行重新缩放,从而有效地分离强弱注意力信号。大量的实验表明,所提出的PolaFormer提高了各种视觉任务的性能,将表达性和效率提高了高达4.6%。
🔬 方法详解
问题定义:现有基于线性注意力的视觉Transformer模型,由于特征映射的非负约束和指数函数的近似,导致查询(Query)和键(Key)之间的负相关信息丢失,使得生成的注意力图区分性较差,信息熵较高。这限制了模型对图像中复杂关系的建模能力。
核心思路:PolaFormer的核心思路是显式地建模查询和键之间的极性关系,即同时考虑同号(正相关)和异号(负相关)的交互。通过这种方式,模型可以更全面地捕捉查询和键之间的关系,从而生成更具区分性的注意力图。此外,论文还通过理论分析,引入一种元素级函数来降低注意力分布的熵,恢复注意力图的尖峰特性。
技术框架:PolaFormer主要是在现有的线性注意力机制的基础上进行改进。其整体框架与标准的Transformer类似,包括输入嵌入、多层Transformer块和输出层。PolaFormer主要改进在于Transformer块中的注意力机制部分,用极性感知线性注意力取代了传统的线性注意力。
关键创新:PolaFormer的关键创新在于提出了极性感知线性注意力机制。该机制通过显式地建模同号和异号的查询-键交互,解决了传统线性注意力中负相关信息丢失的问题。此外,通过理论分析引入元素级函数降低注意力分布的熵,进一步提升了注意力图的质量。
关键设计:PolaFormer的关键设计包括:1) 将查询和键分别分解为正部和负部,然后计算正正、正负、负正、负负四种交互;2) 使用可学习的幂函数对注意力权重进行重新缩放,以增强强注意力信号并抑制弱注意力信号;3) 理论分析证明存在一类元素级函数(具有正的一阶和二阶导数)可以降低注意力分布的熵,并选择幂函数作为具体实现。
🖼️ 关键图片
📊 实验亮点
PolaFormer在多个视觉任务上取得了显著的性能提升。例如,在ImageNet图像分类任务上,PolaFormer相较于基线模型提升了高达4.6%。实验结果表明,PolaFormer在提升模型表达能力的同时,保持了较高的计算效率,验证了其有效性和实用性。
🎯 应用场景
PolaFormer可应用于各种视觉任务,如图像分类、目标检测、语义分割等。其高效的计算特性使其特别适用于处理高分辨率图像和长序列视频。该研究的实际价值在于提升视觉模型的性能和效率,未来可能推动计算机视觉技术在自动驾驶、智能监控、医疗影像分析等领域的应用。
📄 摘要(原文)
Linear attention has emerged as a promising alternative to softmax-based attention, leveraging kernelized feature maps to reduce complexity from quadratic to linear in sequence length. However, the non-negative constraint on feature maps and the relaxed exponential function used in approximation lead to significant information loss compared to the original query-key dot products, resulting in less discriminative attention maps with higher entropy. To address the missing interactions driven by negative values in query-key pairs, we propose a polarity-aware linear attention mechanism that explicitly models both same-signed and opposite-signed query-key interactions, ensuring comprehensive coverage of relational information. Furthermore, to restore the spiky properties of attention maps, we provide a theoretical analysis proving the existence of a class of element-wise functions (with positive first and second derivatives) that can reduce entropy in the attention distribution. For simplicity, and recognizing the distinct contributions of each dimension, we employ a learnable power function for rescaling, allowing strong and weak attention signals to be effectively separated. Extensive experiments demonstrate that the proposed PolaFormer improves performance on various vision tasks, enhancing both expressiveness and efficiency by up to 4.6%.