Alias-Free ViT: Fractional Shift Invariance via Linear Attention

作者: Hagay Michaeli, Daniel Soudry

分类: cs.CV

发布日期: 2025-10-26

备注: Accepted at NeurIPS 2025. Code is available at https://github.com/hmichaeli/alias_free_vit

💡 一句话要点

提出Alias-Free ViT，通过线性注意力实现分数平移不变性，提升ViT的鲁棒性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: Vision Transformer 平移不变性 抗混叠 线性注意力 图像分类 鲁棒性 分数平移

📋 核心要点

ViT缺乏卷积神经网络的平移不变性归纳偏置，导致其对图像微小平移敏感，影响性能。
提出Alias-Free ViT，结合无混叠下采样和非线性，以及线性交叉协方差注意力，实现分数平移不变性。
实验表明，该模型在图像分类中保持竞争力，并在对抗平移鲁棒性方面优于同等规模的模型。

📝 摘要（中文）

Transformer在视觉任务中已成为卷积神经网络(convnets)的有力竞争者，但它们缺乏convnets的架构归纳偏置，这可能会阻碍其潜在性能。具体而言，Vision Transformers (ViTs)不具备平移不变性，并且比标准convnets对微小的图像平移更敏感。然而，先前的研究表明，由于下采样和非线性层中的混叠现象，convnets也不是完全的平移不变的。因此，已经提出了抗混叠方法来验证convnets的平移鲁棒性。在此基础上，我们提出了一种Alias-Free ViT，它结合了两个主要组成部分。首先，它使用无混叠的下采样和非线性。其次，它使用线性交叉协方差注意力，该注意力对整数和平移都具有移位等变性，从而实现移位不变的全局表示。我们的模型在图像分类中保持了有竞争力的性能，并且在对抗性平移的鲁棒性方面优于类似大小的模型。

🔬 方法详解

问题定义：Vision Transformer (ViT) 在图像分类等视觉任务中表现出色，但其缺乏卷积神经网络 (CNN) 的平移不变性，导致对图像的微小平移非常敏感。这种敏感性降低了模型的鲁棒性，限制了其在实际应用中的性能。现有的 CNN 也存在由于下采样和非线性操作引入的混叠效应，导致平移不变性不完美。

核心思路：该论文的核心思路是通过引入抗混叠机制和线性移位等变注意力来增强 ViT 的平移不变性。具体来说，首先使用无混叠的下采样和非线性激活函数来减少混叠效应。其次，使用线性交叉协方差注意力机制，该机制对整数和平移都具有移位等变性，从而确保模型能够学习到平移不变的全局表示。

技术框架：Alias-Free ViT 的整体架构基于标准的 ViT 结构，主要改进在于两个方面：一是将传统的下采样层替换为抗混叠的下采样层，例如使用模糊池化 (blur pooling) 或可分离卷积；二是将标准的自注意力机制替换为线性交叉协方差注意力。整个网络仍然由多个 Transformer 块堆叠而成，每个块包含一个线性注意力层和一个前馈网络。

关键创新：该论文的关键创新在于将抗混叠技术与线性移位等变注意力相结合，从而有效地提高了 ViT 的平移不变性。线性交叉协方差注意力是另一个关键创新，它不仅降低了计算复杂度，而且保证了对分数平移的移位等变性。

关键设计：在抗混叠下采样方面，可以使用不同的滤波器和下采样策略，例如高斯模糊和可分离卷积。线性交叉协方差注意力的具体实现涉及计算 query 和 key 之间的交叉协方差矩阵，并使用该矩阵来加权 value。损失函数方面，可以使用标准的交叉熵损失函数进行训练。具体的网络结构参数（如层数、隐藏单元数等）可以根据具体的任务和数据集进行调整。

📊 实验亮点

Alias-Free ViT 在图像分类任务上取得了与标准 ViT 相当的性能，同时在对抗平移攻击下表现出更强的鲁棒性。实验结果表明，该模型能够有效地抵抗微小的图像平移，并且在对抗性攻击下优于同等规模的模型。具体的性能提升幅度取决于数据集和攻击类型。

🎯 应用场景

Alias-Free ViT 在图像识别、目标检测、图像分割等领域具有广泛的应用前景。其增强的平移不变性使得模型在处理具有轻微平移或形变的图像时更加鲁棒，例如在自动驾驶、医学图像分析等领域。该研究有助于提升视觉模型的可靠性和泛化能力，推动人工智能技术在实际场景中的应用。

📄 摘要（原文）

Transformers have emerged as a competitive alternative to convnets in vision tasks, yet they lack the architectural inductive bias of convnets, which may hinder their potential performance. Specifically, Vision Transformers (ViTs) are not translation-invariant and are more sensitive to minor image translations than standard convnets. Previous studies have shown, however, that convnets are also not perfectly shift-invariant, due to aliasing in downsampling and nonlinear layers. Consequently, anti-aliasing approaches have been proposed to certify convnets' translation robustness. Building on this line of work, we propose an Alias-Free ViT, which combines two main components. First, it uses alias-free downsampling and nonlinearities. Second, it uses linear cross-covariance attention that is shift-equivariant to both integer and fractional translations, enabling a shift-invariant global representation. Our model maintains competitive performance in image classification and outperforms similar-sized models in terms of robustness to adversarial translations.

Alias-Free ViT: Fractional Shift Invariance via Linear Attention

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册