ViT-AdaLA: Adapting Vision Transformers with Linear Attention

📄 arXiv: 2603.16063v1 📥 PDF

作者: Yifan Li, Seunghyun Yoon, Viet Dac Lai, Franck Dernoncourt, Jason Kuen, Yu Kong, Trung Bui

分类: cs.CV

发布日期: 2026-03-17


💡 一句话要点

ViT-AdaLA:通过线性注意力自适应视觉Transformer,解决长序列扩展性问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉Transformer 线性注意力 知识迁移 视觉基础模型 模型压缩

📋 核心要点

  1. 传统ViT的二次复杂度限制了其在长序列上的扩展性,现有线性注意力方法训练成本高或迁移效果差。
  2. ViT-AdaLA通过注意力对齐、特征对齐和监督微调三个阶段,将VFM的先验知识有效迁移到线性注意力ViT。
  3. 实验表明,ViT-AdaLA在分类和分割任务上优于现有线性注意力方法,验证了其有效性和通用性。

📝 摘要(中文)

基于视觉Transformer (ViT) 的视觉基础模型 (VFM) 在各种视觉任务中取得了显著的性能,但其二次复杂度限制了对长序列的可扩展性。现有的 ViT 线性注意力方法通常从头开始训练,需要大量的计算资源,而为大型语言模型解码器开发的基于线性化的方法不能很好地迁移到 ViT。为了解决这些挑战,我们提出了一种新的框架 ViT-AdaLA,用于有效地从 VFM 适应和转移先验知识到线性注意力 ViT。ViT-AdaLA 包括三个阶段:注意力对齐、特征对齐和监督微调。在注意力对齐阶段,我们将 vanilla 线性注意力与每个块中原始的基于 softmax 的注意力对齐,以近似 softmax 注意力的行为。然而,残差近似误差不可避免地会在各层累积。我们通过微调线性化的 ViT 来缓解这个问题,使其最后一层的特征与冻结的 softmax VFM 教师对齐。最后,通过监督微调将适应的先验知识转移到下游任务。在分类和分割任务上的大量实验证明了 ViT-AdaLA 相对于各种最先进的线性注意力方法的有效性和通用性。

🔬 方法详解

问题定义:论文旨在解决视觉Transformer (ViT) 在处理长序列时面临的计算复杂度瓶颈。传统的ViT使用softmax注意力机制,其计算复杂度与序列长度呈二次方关系,导致难以扩展到高分辨率图像或视频等长序列数据。现有的线性注意力方法要么需要从头开始训练,计算成本高昂,要么从语言模型迁移而来,效果不佳。

核心思路:ViT-AdaLA的核心思路是通过知识迁移,将预训练的视觉基础模型(VFM)的知识迁移到线性注意力ViT中,从而避免从头训练的巨大开销。通过注意力对齐和特征对齐,使线性注意力ViT尽可能地模仿原始softmax注意力ViT的行为,从而继承其性能。

技术框架:ViT-AdaLA包含三个主要阶段: 1. 注意力对齐:将线性注意力模块的输出与原始softmax注意力模块的输出对齐,最小化它们之间的差异。 2. 特征对齐:微调线性注意力ViT,使其最后一层的特征与冻结的softmax VFM教师模型的特征对齐,从而弥补多层累积的误差。 3. 监督微调:在下游任务上进行监督微调,进一步提升模型性能。

关键创新:ViT-AdaLA的关键创新在于提出了一种有效的知识迁移框架,将预训练的视觉基础模型的知识迁移到线性注意力ViT中。与从头训练或直接迁移语言模型的方法相比,ViT-AdaLA能够更有效地利用预训练模型的知识,并取得更好的性能。此外,通过注意力对齐和特征对齐,能够更好地模仿原始softmax注意力ViT的行为,从而保证了知识迁移的质量。

关键设计: * 注意力对齐损失:使用均方误差(MSE)损失函数来衡量线性注意力和softmax注意力之间的差异。 * 特征对齐损失:使用MSE损失函数来衡量线性注意力ViT和softmax VFM教师模型最后一层特征之间的差异。 * 线性注意力机制:采用一种高效的线性注意力机制,例如Performer或Linear Transformer,以降低计算复杂度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ViT-AdaLA在图像分类和语义分割任务上均取得了显著的性能提升。例如,在ImageNet分类任务上,ViT-AdaLA在保持相似性能的同时,显著降低了计算复杂度。在ADE20K语义分割任务上,ViT-AdaLA也优于其他线性注意力方法,证明了其有效性和通用性。

🎯 应用场景

ViT-AdaLA可应用于需要处理高分辨率图像或长视频序列的视觉任务,例如:医学图像分析、遥感图像处理、视频监控等。通过降低计算复杂度,该方法使得ViT能够更好地应用于资源受限的设备上,例如移动设备或嵌入式系统。此外,该方法也为其他视觉模型的知识迁移提供了新的思路。

📄 摘要(原文)

Vision Transformers (ViTs) based vision foundation models (VFMs) have achieved remarkable performance across diverse vision tasks, but suffer from quadratic complexity that limits scalability to long sequences. Existing linear attention approaches for ViTs are typically trained from scratch, requiring substantial computational resources, while linearization-based methods developed for large language model decoders do not transfer well to ViTs. To address these challenges, we propose ViT-AdaLA, a novel framework for effectively adapting and transferring prior knowledge from VFMs to linear attention ViTs. ViT-AdaLA consists of three stages: attention alignment, feature alignment, and supervised fine-tuning. In the attention alignment stage, we align vanilla linear attention with the original softmax-based attention in each block to approximate the behavior of softmax attention. However, residual approximation errors inevitably accumulate across layers. We mitigate this by fine-tuning the linearized ViT to align its final-layer features with a frozen softmax VFM teacher. Finally, the adapted prior knowledge is transferred to downstream tasks through supervised fine-tuning. Extensive experiments on classification and segmentation tasks demonstrate the effectiveness and generality of ViT-AdaLA over various state-of-the-art linear attention counterpart.