Alias-Free ViT: Fractional Shift Invariance via Linear Attention

📄 arXiv: 2510.22673v1 📥 PDF

作者: Hagay Michaeli, Daniel Soudry

分类: cs.CV

发布日期: 2025-10-26

备注: Accepted at NeurIPS 2025. Code is available at https://github.com/hmichaeli/alias_free_vit


💡 一句话要点

提出Alias-Free ViT,通过线性注意力实现分数平移不变性,提升ViT的鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: Vision Transformer 平移不变性 抗混叠 线性注意力 图像分类 鲁棒性 分数平移

📋 核心要点

  1. ViT缺乏卷积神经网络的平移不变性归纳偏置,导致其对图像微小平移敏感,影响性能。
  2. Alias-Free ViT通过无混叠下采样和非线性层,以及线性交叉协方差注意力,实现分数平移不变性。
  3. 实验表明,Alias-Free ViT在图像分类中保持竞争力,并在对抗平移鲁棒性上优于同等规模模型。

📝 摘要(中文)

Transformer在视觉任务中已成为卷积神经网络(convnets)的有力竞争者,但它们缺乏convnets的架构归纳偏置,这可能会阻碍其潜在性能。具体而言,Vision Transformers (ViTs)不具备平移不变性,并且比标准convnets对微小的图像平移更敏感。然而,之前的研究表明,由于下采样和非线性层中的混叠现象,convnets也不是完全的平移不变的。因此,已经提出了抗混叠方法来验证convnets的平移鲁棒性。在此基础上,我们提出了Alias-Free ViT,它结合了两个主要组成部分。首先,它使用无混叠的下采样和非线性。其次,它使用线性交叉协方差注意力,该注意力对整数和平移都是移位等变的,从而实现移位不变的全局表示。我们的模型在图像分类中保持了有竞争力的性能,并且在对抗性平移的鲁棒性方面优于类似大小的模型。

🔬 方法详解

问题定义:ViT模型在图像识别任务中表现出色,但缺乏卷积神经网络固有的平移不变性。这意味着ViT对输入图像的微小平移非常敏感,导致性能下降。现有方法难以在保持高性能的同时,有效提升ViT的平移不变性和鲁棒性。

核心思路:该论文的核心思路是通过引入抗混叠机制和线性移位等变注意力来增强ViT的平移不变性。具体来说,通过无混叠的下采样和非线性层来减少混叠效应,并使用线性交叉协方差注意力来实现对整数和分数平移的移位等变性。

技术框架:Alias-Free ViT的整体架构基于标准的ViT结构,主要改进在于两个方面:一是将传统的下采样层替换为抗混叠下采样层,例如使用模糊池化(blur pooling)等方法;二是将标准的多头注意力机制替换为线性交叉协方差注意力。整个网络仍然由多个Transformer块堆叠而成,每个块包含一个抗混叠下采样层、一个线性交叉协方差注意力层和一个前馈神经网络。

关键创新:该论文的关键创新在于将抗混叠技术与线性注意力机制相结合,从而实现了对分数平移的移位不变性。线性交叉协方差注意力能够有效地捕捉图像中不同位置之间的关系,并且对平移具有鲁棒性。这种结合使得Alias-Free ViT在保持高性能的同时,显著提升了对图像平移的鲁棒性。

关键设计:在抗混叠下采样方面,论文可能采用了模糊池化或类似的低通滤波方法,以减少下采样过程中的混叠效应。在线性交叉协方差注意力方面,关键在于使用线性函数来计算query、key和value之间的关系,从而实现移位等变性。具体的参数设置和损失函数可能与标准的ViT模型类似,但需要根据具体的实验结果进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Alias-Free ViT在图像分类任务上取得了与标准ViT相当的性能,同时在对抗平移攻击下表现出更强的鲁棒性。实验结果表明,该模型能够有效地抵抗微小的图像平移,并且在对抗性攻击下保持较高的准确率,优于同等规模的ViT模型。

🎯 应用场景

Alias-Free ViT在图像识别、目标检测、图像分割等领域具有广泛的应用前景。其增强的平移不变性和鲁棒性使其在自动驾驶、医学图像分析、遥感图像处理等对图像质量要求较高的场景中具有重要价值。未来,该方法可以进一步推广到其他视觉任务和模型中,提升模型的泛化能力和鲁棒性。

📄 摘要(原文)

Transformers have emerged as a competitive alternative to convnets in vision tasks, yet they lack the architectural inductive bias of convnets, which may hinder their potential performance. Specifically, Vision Transformers (ViTs) are not translation-invariant and are more sensitive to minor image translations than standard convnets. Previous studies have shown, however, that convnets are also not perfectly shift-invariant, due to aliasing in downsampling and nonlinear layers. Consequently, anti-aliasing approaches have been proposed to certify convnets' translation robustness. Building on this line of work, we propose an Alias-Free ViT, which combines two main components. First, it uses alias-free downsampling and nonlinearities. Second, it uses linear cross-covariance attention that is shift-equivariant to both integer and fractional translations, enabling a shift-invariant global representation. Our model maintains competitive performance in image classification and outperforms similar-sized models in terms of robustness to adversarial translations.