ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models

作者: Guoyizhe Wei, Rama Chellappa

分类: cs.CV, cs.AI

发布日期: 2026-02-28

💡 一句话要点

ViT-Linearizer：通过知识蒸馏将二次复杂度ViT模型转化为线性复杂度模型，提升高分辨率图像处理效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: Vision Transformer 知识蒸馏 线性复杂度模型 激活匹配 掩码预测 高分辨率图像处理 Mamba 循环神经网络

📋 核心要点

Vision Transformer虽然性能卓越，但其全局自注意力机制导致计算复杂度呈二次方增长，限制了其在高分辨率输入上的应用。
ViT-Linearizer通过跨架构蒸馏，将ViT的知识迁移到线性复杂度的循环模型，核心在于激活匹配和掩码预测。
实验表明，该方法显著加速了高分辨率任务的推理速度，并提升了Mamba等RNN架构在ImageNet等基准测试上的性能。

📝 摘要（中文）

本文提出ViT-Linearizer，一种跨架构蒸馏框架，旨在将Vision Transformers (ViTs) 的丰富表征迁移到线性时间复杂度的循环模型中。该方法利用1) 激活匹配，一种中间约束，鼓励学生模型将其token间的依赖关系与教师模型产生的依赖关系对齐；以及2) 掩码预测，一种上下文重建目标，要求学生模型预测教师模型中未见过的（掩码）token的表征。通过这种方式，可以在保持高效复杂度的同时，有效地将二次自注意力知识蒸馏到学生模型中。实验结果表明，该方法在高分辨率任务中提供了显著的加速，显著解决了推理中的硬件挑战。此外，它还提升了基于Mamba的架构在标准视觉基准上的性能，在ImageNet上使用base尺寸的模型实现了具有竞争力的84.3%的top-1准确率。这些结果强调了基于RNN的解决方案在大规模视觉任务中的良好潜力，弥合了理论效率与实际应用之间的差距。

🔬 方法详解

问题定义：Vision Transformer (ViT) 在视觉任务中表现出色，但其全局自注意力机制的计算复杂度为二次方级别，这在高分辨率图像处理时会带来巨大的计算负担和内存需求，限制了其在资源受限设备上的应用。现有方法难以在保持性能的同时，有效降低ViT的计算复杂度。

核心思路：ViT-Linearizer的核心思路是通过知识蒸馏，将ViT模型学习到的丰富表征迁移到计算复杂度更低的线性模型（如基于RNN或Mamba的架构）中。通过让学生模型模仿教师模型的行为，从而在保持甚至提升性能的同时，显著降低计算复杂度。

技术框架：ViT-Linearizer框架包含一个预训练的ViT教师模型和一个线性复杂度的学生模型。训练过程主要包括两个阶段：1) 激活匹配：学生模型学习模仿教师模型中间层的激活值，从而学习token之间的依赖关系。2) 掩码预测：学生模型需要预测教师模型中被掩盖的token的表征，从而学习上下文信息。这两个阶段共同作用，使得学生模型能够有效地学习到教师模型的知识。

关键创新：ViT-Linearizer的关键创新在于其跨架构的蒸馏方法，它不仅关注最终的预测结果，更关注中间层的表征学习和上下文信息的重建。激活匹配和掩码预测的结合，使得学生模型能够更全面地学习到教师模型的知识，从而在降低计算复杂度的同时，保持甚至提升性能。

关键设计：在激活匹配阶段，使用均方误差（MSE）损失函数来衡量学生模型和教师模型中间层激活值的差异。在掩码预测阶段，随机掩盖教师模型的部分token，然后让学生模型预测这些被掩盖的token的表征，同样使用MSE损失函数进行优化。此外，还使用了标准的分类损失函数来保证学生模型的分类性能。具体的网络结构可以根据实际需求选择，例如可以使用Mamba作为学生模型。

📊 实验亮点

ViT-Linearizer在ImageNet数据集上取得了显著的成果，使用base尺寸的模型达到了84.3%的top-1准确率，与同等规模的ViT模型相比具有竞争力。更重要的是，该方法在高分辨率图像处理任务中实现了显著的加速，有效解决了ViT在高分辨率输入上的计算瓶颈。实验结果表明，该方法能够有效地将ViT的知识迁移到线性模型中，并在保持甚至提升性能的同时，显著降低计算复杂度。

🎯 应用场景

ViT-Linearizer具有广泛的应用前景，尤其是在需要处理高分辨率图像或视频的场景中，例如自动驾驶、医学图像分析、遥感图像处理等。通过降低计算复杂度，该方法可以使得ViT模型能够在资源受限的设备上运行，从而扩展了其应用范围。此外，该方法还可以用于提升现有线性模型的性能，例如Mamba等。

📄 摘要（原文）

Vision Transformers (ViTs) have delivered remarkable progress through global self-attention, yet their quadratic complexity can become prohibitive for high-resolution inputs. In this work, we present ViT-Linearizer, a cross-architecture distillation framework that transfers rich ViT representations into a linear-time, recurrent-style model. Our approach leverages 1) activation matching, an intermediate constraint that encourages student to align its token-wise dependencies with those produced by the teacher, and 2) masked prediction, a contextual reconstruction objective that requires the student to predict the teacher's representations for unseen (masked) tokens, to effectively distill the quadratic self-attention knowledge into the student while maintaining efficient complexity. Empirically, our method provides notable speedups particularly for high-resolution tasks, significantly addressing the hardware challenges in inference. Additionally, it also elevates Mamba-based architectures' performance on standard vision benchmarks, achieving a competitive 84.3% top-1 accuracy on ImageNet with a base-sized model. Our results underscore the good potential of RNN-based solutions for large-scale visual tasks, bridging the gap between theoretical efficiency and real-world practice.

ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理