Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

📄 arXiv: 2603.19209v1 📥 PDF

作者: Shang-Jui Ray Kuo, Paola Cascante-Bonilla

分类: cs.CV, cs.LG

发布日期: 2026-03-19

备注: Project page: https://lab-spell.github.io/vlm-ssm-vision-encoders/ ; Code: https://github.com/raykuo18/vlm-ssm-vision-encoders


💡 一句话要点

探索VLMs视觉编码新选择:评估状态空间模型作为视觉Transformer的替代方案

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 状态空间模型 视觉编码器 Transformer 视觉问答 目标定位 模型效率 鲁棒性

📋 核心要点

  1. 现有VLMs主要依赖Transformer作为视觉骨干,但计算成本高昂,且性能提升受限。
  2. 论文探索使用状态空间模型(SSM)替代Transformer,旨在降低计算成本并提升VLM性能。
  3. 实验表明,在同等ImageNet预训练下,SSM在VQA和定位任务上表现优异,且模型规模更小。

📝 摘要(中文)

大型视觉-语言模型(VLMs)通常采用冻结的视觉骨干网络,其图像特征通过轻量级连接器映射到大型语言模型中。虽然基于Transformer的编码器是标准的视觉骨干网络,但本文探讨了状态空间模型(SSM)视觉骨干网络是否可以成为一个强大的替代方案。本文在受控环境中系统地评估了用于VLMs的SSM视觉骨干网络。在匹配的ImageNet-1K初始化下,SSM骨干网络在VQA和grounding/localization方面实现了最强的整体性能。本文进一步通过检测或分割训练来调整SSM和ViT系列骨干网络,发现密集任务微调通常可以提高所有系列的性能;经过这种调整后,SSM骨干网络在更小的模型规模下仍然具有竞争力。本文还观察到:(i)更高的ImageNet准确率或更大的骨干网络并不能可靠地转化为更好的VLM性能,以及(ii)一些视觉骨干网络在定位方面不稳定。基于这些发现,本文提出了稳定策略,提高了两种骨干网络的鲁棒性,并强调了SSM骨干网络作为VLMs中基于Transformer的视觉编码器的强大替代方案。

🔬 方法详解

问题定义:现有的大型视觉语言模型(VLMs)通常使用Transformer作为视觉编码器,但Transformer计算复杂度高,参数量大,限制了VLMs的效率和可扩展性。此外,单纯提高ImageNet预训练精度或增大视觉骨干网络规模,并不能保证VLM性能的提升,甚至可能导致定位不稳定。因此,需要探索更高效、更稳定的视觉编码器替代方案。

核心思路:论文的核心思路是探索使用状态空间模型(SSM)作为VLMs的视觉编码器,替代传统的Transformer。SSM在序列建模方面具有优势,能够以更低的计算成本处理长距离依赖关系。通过精心设计的实验和分析,验证SSM在VLM任务中的有效性和优势。

技术框架:论文采用标准的VLM框架,主要包括视觉编码器、语言模型和连接器。视觉编码器部分,分别使用Transformer(ViT系列)和状态空间模型(SSM)作为骨干网络。图像经过视觉编码器提取特征后,通过连接器映射到语言模型的嵌入空间,最后进行下游任务的训练和评估。论文重点关注视觉编码器的选择和优化。

关键创新:论文的关键创新在于:1) 系统性地评估了状态空间模型(SSM)作为VLMs视觉编码器的潜力,并证明了其在特定任务上的优越性。2) 提出了稳定策略,提高了视觉骨干网络在定位任务中的鲁棒性。3) 揭示了ImageNet预训练精度与VLM性能之间的非线性关系,为视觉骨干网络的选择提供了新的视角。

关键设计:论文的关键设计包括:1) 使用匹配的ImageNet-1K初始化,确保公平比较Transformer和SSM。2) 通过检测和分割任务对视觉骨干网络进行微调,提升其在密集预测任务中的性能。3) 提出了稳定策略,例如数据增强和正则化,以解决定位不稳定的问题。4) 详细分析了不同视觉骨干网络在VQA和定位任务上的表现,并探讨了其背后的原因。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在ImageNet-1K初始化下,SSM骨干网络在VQA和grounding/localization方面取得了最佳的整体性能。经过密集任务微调后,SSM骨干网络在保持竞争力的同时,模型规模显著小于Transformer。研究还发现,更高的ImageNet准确率或更大的骨干网络并不一定能转化为更好的VLM性能,并提出了稳定策略来提高骨干网络的鲁棒性。

🎯 应用场景

该研究成果可应用于各种视觉-语言任务,如视觉问答、图像描述、目标定位等。使用更高效的SSM视觉编码器可以降低VLM的计算成本,使其更容易部署在资源受限的设备上。此外,提高定位稳定性有助于改善VLM在需要精确定位的任务中的表现,例如机器人导航和自动驾驶。

📄 摘要(原文)

Large vision--language models (VLMs) often use a frozen vision backbone, whose image features are mapped into a large language model through a lightweight connector. While transformer-based encoders are the standard visual backbone, we ask whether state space model (SSM) vision backbones can be a strong alternative. We systematically evaluate SSM vision backbones for VLMs in a controlled setting. Under matched ImageNet-1K initialization, the SSM backbone achieves the strongest overall performance across both VQA and grounding/localization. We further adapt both SSM and ViT-family backbones with detection or segmentation training and find that dense-task tuning generally improves performance across families; after this adaptation, the SSM backbone remains competitive while operating at a substantially smaller model scale. We further observe that (i) higher ImageNet accuracy or larger backbones do not reliably translate into better VLM performance, and (ii) some visual backbones are unstable in localization. Based on these findings, we propose stabilization strategies that improve robustness for both backbone families and highlight SSM backbones as a strong alternative to transformer-based vision encoders in VLMs.