Advancing Vision Transformer with Enhanced Spatial Priors

📄 arXiv: 2604.18549v1 📥 PDF

作者: Qihang Fan, Huaibo Huang, Mingrui Chen, Hongmin Liu, Ran He

分类: cs.CV

发布日期: 2026-04-20

备注: Accepted by TPAMI2026


💡 一句话要点

提出EVT:利用欧几里得距离增强空间先验的Vision Transformer

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: Vision Transformer 空间先验 欧几里得距离 自注意力机制 图像分类 目标检测 语义分割

📋 核心要点

  1. ViT缺乏显式空间先验,且自注意力机制计算复杂度高,限制了其应用。
  2. EVT利用欧几里得距离衰减增强空间信息建模,并采用空间独立分组方法。
  3. 实验表明,EVT在图像分类、目标检测等任务上表现出卓越的性能,ImageNet-1k上top1-acc达到86.6%。

📝 摘要(中文)

近年来,Vision Transformer (ViT) 在计算机视觉领域备受关注。然而,ViT 的核心组件自注意力机制缺乏显式的空间先验,并且存在二次计算复杂度问题,限制了其应用。为了解决这些问题,我们提出了 RMT,一种具有显式空间先验的通用视觉骨干网络。RMT 利用曼哈顿距离衰减来引入空间信息,并采用水平和垂直分解注意力方法来建模全局信息。在 RMT 的基础上,Euclidean enhanced Vision Transformer (EVT) 是一个扩展版本,它包含几个关键改进。首先,EVT 使用更合理的欧几里得距离衰减来增强空间信息的建模,与 RMT 中使用的曼哈顿距离相比,可以更准确地表示空间关系。其次,EVT 放弃了 RMT 中的分解注意力机制,而是采用了一种更简单的空间独立分组方法,为模型提供了更大的灵活性来控制每个组内的 token 数量。通过解决这些修改,EVT 提供了一种更复杂和适应性更强的方法,将空间先验融入到自注意力机制中,从而克服了与 RMT 相关的一些限制,并进一步增强了其在各种计算机视觉任务中的适用性。在图像分类、目标检测、实例分割和语义分割上的大量实验表明,EVT 表现出卓越的性能。在没有额外训练数据的情况下,EVT 在 ImageNet-1k 上实现了 86.6% 的 top1-acc。

🔬 方法详解

问题定义:ViT及其变体在处理视觉任务时,由于自注意力机制的特性,缺乏对图像中空间信息的有效利用。现有方法,如RMT,虽然尝试引入空间先验,但使用的曼哈顿距离在表示空间关系上不够精确,并且分解注意力机制增加了模型的复杂性。因此,如何更有效地将空间信息融入到Transformer结构中,同时降低计算复杂度,是本文要解决的问题。

核心思路:EVT的核心思路是利用欧几里得距离衰减来更准确地建模空间信息,并采用空间独立分组方法来简化注意力计算。欧几里得距离能够更真实地反映像素之间的空间关系,而空间独立分组则允许模型更灵活地控制每个组内的token数量,从而在计算效率和模型表达能力之间取得平衡。

技术框架:EVT的整体架构基于Vision Transformer,主要改进在于自注意力模块。首先,输入图像被分割成patch,然后通过线性投影层嵌入到高维空间。接着,嵌入后的patch经过一系列的EVT块处理。每个EVT块包含一个欧几里得距离增强的自注意力层和一个前馈网络。最后,经过全局平均池化和分类器得到最终的预测结果。

关键创新:EVT最重要的技术创新点在于使用欧几里得距离衰减来增强空间先验。与RMT使用的曼哈顿距离相比,欧几里得距离能够提供更精确的空间关系建模。此外,EVT采用的空间独立分组方法,相比于RMT的分解注意力机制,更加简单灵活,能够更好地控制计算复杂度。

关键设计:EVT的关键设计包括:1) 欧几里得距离衰减函数的具体形式,需要仔细设计以保证模型能够有效地利用空间信息;2) 空间独立分组的具体实现方式,包括如何确定每个组内的token数量,以及如何进行组间的信息交互;3) 自注意力模块中的其他参数设置,如注意力头的数量、嵌入维度等,需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EVT在ImageNet-1k图像分类任务上取得了显著的成果,在没有额外训练数据的情况下,达到了86.6%的top1-acc。这一结果表明,EVT通过引入更精确的空间先验,有效地提升了模型的性能。与其他ViT变体相比,EVT在参数量和计算复杂度上具有一定的优势,使其更易于部署和应用。

🎯 应用场景

EVT具有广泛的应用前景,可应用于图像分类、目标检测、语义分割等多种计算机视觉任务。其更精确的空间信息建模能力,使其在需要精确定位和理解图像内容的场景中具有优势,例如自动驾驶、医学图像分析、遥感图像处理等领域。未来,EVT有望成为一种通用的视觉骨干网络,为各种视觉应用提供强大的支持。

📄 摘要(原文)

In recent years, the Vision Transformer (ViT) has garnered significant attention within the computer vision community. However, the core component of ViT, Self-Attention, lacks explicit spatial priors and suffers from quadratic computational complexity, limiting its applicability. To address these issues, we have proposed RMT, a robust vision backbone with explicit spatial priors for general purposes. RMT utilizes Manhattan distance decay to introduce spatial information and employs a horizontal and vertical decomposition attention method to model global information. Building on the strengths of RMT, Euclidean enhanced Vision Transformer (EVT) is an expanded version that incorporates several key improvements. Firstly, EVT uses a more reasonable Euclidean distance decay to enhance the modeling of spatial information, allowing for a more accurate representation of spatial relationships compared to the Manhattan distance used in RMT. Secondly, EVT abandons the decomposed attention mechanism featured in RMT and instead adopts a simpler spatially-independent grouping approach, providing the model with greater flexibility in controlling the number of tokens within each group. By addressing these modifications, EVT offers a more sophisticated and adaptable approach to incorporating spatial priors into the Self-Attention mechanism, thus overcoming some of the limitations associated with RMT and further enhancing its applicability in various computer vision tasks. Extensive experiments on Image Classification, Object Detection, Instance Segmentation, and Semantic Segmentation demonstrate that EVT exhibits exceptional performance. Without additional training data, EVT achieves 86.6% top1-acc on ImageNet-1k.