ViSpec: Accelerating Vision-Language Models with Vision-Aware Speculative Decoding

📄 arXiv: 2509.15235v5 📥 PDF

作者: Jialiang Kang, Han Shu, Wenshuo Li, Yingjie Zhai, Xinghao Chen

分类: cs.CV, cs.CL

发布日期: 2025-09-17 (更新: 2025-10-23)

备注: NeurIPS 2025

🔗 代码/项目: GITHUB


💡 一句话要点

ViSpec:利用视觉感知推测解码加速视觉-语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 推测解码 模型加速 多模态学习 视觉适配器

📋 核心要点

  1. 现有视觉-语言模型(VLM)的推测解码加速效果不佳,未能充分利用VLM在视觉信息处理上的优势。
  2. ViSpec通过轻量级视觉适配器压缩图像tokens,并提取全局图像特征增强文本tokens,提升草稿模型的多模态理解能力。
  3. ViSpec通过定制数据集和训练策略,避免草稿模型学习捷径,并在VLM推测解码中实现了显著的加速效果。

📝 摘要(中文)

推测解码是一种广泛应用于加速大型语言模型(LLMs)推理的技术,但其在视觉-语言模型(VLMs)中的应用仍未得到充分探索,现有方法仅实现了适度的加速(<1.5倍)。随着多模态能力成为大型模型的核心,这种差距日益显著。我们假设大型VLM可以有效地逐层过滤冗余图像信息而不影响文本理解,而较小的草稿模型则难以做到这一点。为了解决这个问题,我们引入了视觉感知推测解码(ViSpec),这是一个为VLM量身定制的新框架。ViSpec采用轻量级的视觉适配器模块将图像tokens压缩成紧凑的表示,该表示无缝集成到草稿模型的注意力机制中,同时保留原始图像的位置信息。此外,我们为每个输入图像提取全局特征向量,并使用该特征增强所有后续文本tokens,以增强多模态一致性。为了克服缺乏具有长助手响应的多模态数据集的问题,我们通过重新利用现有数据集并使用目标VLM和修改后的提示生成扩展输出来策划一个专门的训练数据集。我们的训练策略减轻了草稿模型利用直接访问目标模型隐藏状态的风险,否则,如果仅在目标模型输出上进行训练,可能会导致捷径学习。大量的实验验证了ViSpec,据我们所知,它首次在VLM推测解码中实现了显著的加速。

🔬 方法详解

问题定义:现有视觉-语言模型(VLM)的推测解码加速效果有限,通常低于1.5倍。这是因为现有的推测解码方法没有充分利用VLM本身在视觉信息处理上的能力,导致草稿模型难以准确预测目标模型的输出,从而降低了加速效果。现有方法的痛点在于草稿模型无法有效理解和利用图像信息,导致推测的准确性不足。

核心思路:ViSpec的核心思路是让草稿模型更好地理解图像信息,从而更准确地预测目标模型的输出。具体来说,ViSpec通过引入视觉适配器模块来压缩图像tokens,并提取全局图像特征来增强文本tokens,从而提升草稿模型的多模态理解能力。这样设计的目的是使草稿模型能够更有效地利用图像信息,提高推测的准确性,从而实现更高的加速效果。

技术框架:ViSpec的整体框架包括以下几个主要模块:1) 视觉适配器模块:用于将图像tokens压缩成紧凑的表示。2) 全局特征提取模块:用于提取图像的全局特征向量。3) 注意力机制集成:将压缩后的图像表示集成到草稿模型的注意力机制中。4) 文本增强:使用全局图像特征增强所有后续文本tokens。5) 训练数据集构建:通过重新利用现有数据集并使用目标VLM生成扩展输出来构建专门的训练数据集。

关键创新:ViSpec最重要的技术创新点在于视觉感知的推测解码方法。与现有方法不同,ViSpec充分利用了VLM在视觉信息处理上的优势,通过视觉适配器模块和全局特征提取模块,使草稿模型能够更好地理解和利用图像信息。这种视觉感知的推测解码方法能够显著提高推测的准确性,从而实现更高的加速效果。

关键设计:ViSpec的关键设计包括:1) 轻量级的视觉适配器模块,旨在减少计算开销,同时保留关键的图像信息。2) 全局特征向量的提取,用于增强文本tokens的多模态一致性。3) 特殊的训练数据集构建方法,旨在避免草稿模型学习捷径。4) 损失函数的设计,旨在平衡推测的准确性和加速效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ViSpec在VLM推测解码中实现了显著的加速效果,是据作者所知首个取得如此突破的方法。实验结果表明,ViSpec能够有效地提高VLM的推理速度,同时保持较高的生成质量。具体的性能数据和对比基线将在论文中详细展示。

🎯 应用场景

ViSpec可应用于各种需要快速推理的视觉-语言任务,例如图像描述生成、视觉问答、多模态对话等。该研究的实际价值在于能够显著提升VLM的推理速度,降低计算成本,使其更易于部署在资源受限的设备上。未来,ViSpec可以进一步扩展到其他多模态模型和任务中,推动多模态人工智能的发展。

📄 摘要(原文)

Speculative decoding is a widely adopted technique for accelerating inference in large language models (LLMs), yet its application to vision-language models (VLMs) remains underexplored, with existing methods achieving only modest speedups (<1.5x). This gap is increasingly significant as multimodal capabilities become central to large-scale models. We hypothesize that large VLMs can effectively filter redundant image information layer by layer without compromising textual comprehension, whereas smaller draft models struggle to do so. To address this, we introduce Vision-Aware Speculative Decoding (ViSpec), a novel framework tailored for VLMs. ViSpec employs a lightweight vision adaptor module to compress image tokens into a compact representation, which is seamlessly integrated into the draft model's attention mechanism while preserving original image positional information. Additionally, we extract a global feature vector for each input image and augment all subsequent text tokens with this feature to enhance multimodal coherence. To overcome the scarcity of multimodal datasets with long assistant responses, we curate a specialized training dataset by repurposing existing datasets and generating extended outputs using the target VLM with modified prompts. Our training strategy mitigates the risk of the draft model exploiting direct access to the target model's hidden states, which could otherwise lead to shortcut learning when training solely on target model outputs. Extensive experiments validate ViSpec, achieving, to our knowledge, the first substantial speedup in VLM speculative decoding. Code is available at https://github.com/KangJialiang/ViSpec.