Accelerating Vision Foundation Models with Drop-in Depthwise Convolution

作者: Carmelo Scribano, Mohammad Mahdi, Nedyalko Prisadnikov, Yuqian Fu, Giorgia Franchini, Danda Pani Paudel, Marko Bertogna, Luc Van Gool

分类: cs.CV

发布日期: 2026-05-21

备注: Accepted at ICPR 2026

💡 一句话要点

提出基于深度卷积的替代方案以加速视觉基础模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉基础模型 深度卷积 推理加速 视觉变换器 图像分类 图像分割 资源受限设备

📋 核心要点

现有的视觉基础模型在推理时面临高成本，限制了其在资源受限设备上的应用。
本文提出了一种基于深度卷积的高效替代方案，能够替换ViT中的某些注意力头，从而加速推理过程。
实验结果表明，该方法在图像分类和分割任务中实现了17-20%的推理速度提升，且性能下降极小。

📝 摘要（中文）

预训练的视觉基础模型在有限微调的情况下能够在多个任务上表现出色。然而，其视觉变换器（ViT）骨干网络的高推理成本限制了在资源受限设备上的部署。本文通过利用某些注意力头的内在卷积行为，加速大规模预训练的ViT，同时保持其特征提取能力。具体而言，我们引入了一种高效的基于深度卷积的层，作为这些头的替代方案。此外，我们提出了简单的策略来识别可替换的头，并引入了一种微调程序以恢复下游任务性能。在图像分类和分割任务中，我们的方法实现了17-20%的推理速度提升，且性能下降最小。我们通过详细的推导、广泛的实验和效率基准验证了该方法，参考实现已公开可用。

🔬 方法详解

问题定义：本文旨在解决预训练视觉基础模型在推理时的高成本问题，尤其是视觉变换器（ViT）骨干网络的高推理延迟，这限制了其在低资源设备上的应用。

核心思路：通过识别并替换ViT中某些具有卷积特性的注意力头，采用深度卷积层作为替代，从而实现加速，同时保持特征提取能力。

技术框架：整体方法包括三个主要模块：首先，识别可替换的注意力头；其次，使用深度卷积层替换这些头；最后，通过微调恢复下游任务的性能。

关键创新：最重要的创新在于提出了一种高效的深度卷积层作为注意力头的替代方案，显著降低了推理时间，同时保持了模型的性能。

关键设计：在参数设置上，深度卷积层的设计考虑了卷积核的大小和步幅，损失函数采用了标准的交叉熵损失，确保了模型在微调过程中的有效性。

🖼️ 关键图片

📊 实验亮点

实验结果显示，所提出的方法在图像分类和分割任务中实现了17-20%的推理速度提升，相较于基线方法，性能下降极小，验证了其有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括移动设备上的计算机视觉任务，如图像分类、目标检测和图像分割等。通过加速推理过程，能够在资源受限的环境中实现更高效的视觉处理，具有重要的实际价值和广泛的应用前景。

📄 摘要（原文）

Pretrained vision foundation models deliver strong performance across tasks with limited fine-tuning. However, their Vision Transformer (ViT) backbones impose high inference costs, limiting deployment on resource-constrained devices. In this work, we accelerate large-scale pretrained ViTs while preserving their feature extraction capabilities by exploiting the intrinsic convolution-like behavior of some attention heads. Specifically, we introduce an efficient depthwise convolution-based layer that serves as a drop-in replacement for these heads. Additionally, we propose simple strategies to identify which heads can be replaced and introduce a fine-tuning procedure that recovers downstream task performance. Across both image classification and segmentation tasks, our method achieves 17-20\% percent inference speedup with minimal performance degradation. We validate the approach through detailed derivations, extensive experiments, and efficiency benchmarks. The reference implementation is publicly available.

Accelerating Vision Foundation Models with Drop-in Depthwise Convolution

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理