MMSpec: Benchmarking Speculative Decoding for Vision-Language Models

作者: Hui Shen, Xin Wang, Ping Zhang, Yunta Hsieh, Qi Han, Zhongwei Wan, Ziheng Zhang, Jingxuan Zhang, Jing Xiong, Ziyuan Liu, Yifan Zhang, Hangrui Cao, Chenyang Zhao, Mi Zhang

分类: cs.CV

发布日期: 2026-03-16

💡 一句话要点

MMSpec：针对视觉-语言模型推测解码的基准测试与ViSkip加速方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 推测解码 多模态学习 模型加速 基准测试

📋 核心要点

现有视觉-语言模型推理速度慢，推测解码加速方法在多模态场景下的表现尚不明确。
论文提出ViSkip方法，动态调整对视觉token的推测，以优化视觉-语言模型的推测解码。
MMSpec基准测试表明，ViSkip在视觉-语言模型上实现了最先进的推测解码性能。

📝 摘要（中文）

视觉-语言模型(VLM)在多模态任务上表现出色，但由于模型规模庞大和多模态上下文较长，推理延迟较高。推测解码作为一种有效的加速技术，近年来备受关注，但其在VLM中的行为仍未得到充分理解。我们推出了MMSpec，这是首个用于评估视觉-语言模型中推测解码的基准。MMSpec包含跨越六个任务类别的600个多模态样本，并在统一的评估框架下集成了十种具有代表性的推测解码算法。我们的研究揭示了三个关键发现：(1)专为纯文本LLM设计的方法在多模态场景中性能下降；(2)视觉感知在更大的批处理规模下变得越来越重要；(3)吞吐量加速并不能可靠地反映延迟性能。受这些发现的启发，我们提出了一种即插即用的推测解码方法ViSkip，它可以动态地调整对视觉token的推测，并实现了最先进的性能。

🔬 方法详解

问题定义：视觉-语言模型（VLM）虽然在多模态任务中表现出色，但其庞大的模型规模和较长的多模态上下文导致推理延迟较高。现有的推测解码方法主要针对纯文本大型语言模型（LLM）设计，直接应用于VLM时性能下降，无法充分利用视觉信息进行加速。此外，现有评估方法无法准确反映VLM推测解码的真实延迟性能。

核心思路：论文的核心思路是设计一种视觉感知的推测解码方法，即ViSkip，该方法能够动态地调整对视觉token的推测。ViSkip的核心在于识别并跳过（skip）对信息量较少的视觉token的推测，从而减少不必要的计算，提高整体推理效率。这种设计基于观察：并非所有视觉token都同等重要，对某些视觉token的推测可能收益甚微。

技术框架：ViSkip是一个即插即用的模块，可以集成到现有的VLM和推测解码框架中。其主要流程包括：1) 使用VLM提取视觉特征；2) 使用一个轻量级的视觉token重要性评估模块（例如，一个简单的线性层）来预测每个视觉token的重要性得分；3) 根据重要性得分，动态地决定是否对该视觉token进行推测解码；4) 将推测解码的结果与VLM的输出进行验证和合并。

关键创新：ViSkip的关键创新在于其视觉感知的动态推测策略。与传统的推测解码方法不同，ViSkip不是无差别地对所有token进行推测，而是根据视觉token的重要性自适应地调整推测行为。这种方法能够更有效地利用计算资源，避免对不重要的视觉token进行不必要的推测，从而提高整体推理速度。

关键设计：ViSkip的关键设计包括：1) 视觉token重要性评估模块：可以使用不同的方法来评估视觉token的重要性，例如，基于注意力权重、梯度或激活值的统计量。论文中可能采用了一个简单的线性层，将视觉特征映射到一个重要性得分。2) 推测跳过阈值：需要设置一个阈值来决定何时跳过对视觉token的推测。该阈值可以根据经验或通过实验进行调整。3) 损失函数：如果使用监督学习来训练视觉token重要性评估模块，则需要设计一个合适的损失函数，例如，交叉熵损失或均方误差损失。

🖼️ 关键图片

📊 实验亮点

MMSpec基准测试表明，现有的推测解码方法在多模态场景下性能下降。ViSkip方法在MMSpec基准上取得了最先进的性能，显著提高了VLM的推理速度，同时保持了模型精度。实验结果表明，视觉感知对于VLM的推测解码至关重要，尤其是在大批量处理的情况下。

🎯 应用场景

该研究成果可广泛应用于各种需要快速推理的视觉-语言任务，例如图像描述、视觉问答、视觉推理等。通过加速VLM的推理过程，可以降低计算成本，提高用户体验，并促进VLM在资源受限设备上的部署。未来，该方法可以进一步扩展到其他多模态模型和任务中。

📄 摘要（原文）

Vision-language models (VLMs) achieve strong performance on multimodal tasks but suffer from high inference latency due to large model sizes and long multimodal contexts. Speculative decoding has recently emerged as an effective acceleration technique, yet its behavior in VLMs remains insufficiently understood. We introduce MMSpec, the first benchmark for evaluating speculative decoding in vision-language models. MMSpec contains 600 multimodal samples across six task categories and integrates ten representative speculative decoding algorithms under a unified evaluation framework. Our study reveals three key findings: (1) methods designed for text-only LLMs degrade in multimodal scenarios, (2) vision awareness becomes increasingly important at larger batch sizes, and (3) throughput speedup alone does not reliably reflect latency performance. Motivated by these findings, we propose ViSkip, a plug-and-play speculative decoding method that dynamically adapts speculation to vision tokens and achieves state-of-the-art performance.

MMSpec: Benchmarking Speculative Decoding for Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理