See the Forest for the Trees: Loosely Speculative Decoding via Visual-Semantic Guidance for Efficient Inference of Video LLMs

作者: Yicheng Ji, Jun Zhang, Jinpeng Chen, Cong Wang, Lidan Shou, Gang Chen, Huan Li

分类: cs.CL

发布日期: 2026-04-07

备注: ACL'2026 MainConference

💡 一句话要点

提出LVSpec，通过视觉语义引导的松散推测解码加速视频LLM推理。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 推测解码 视觉语义引导 模型加速 免训练方法

📋 核心要点

现有推测解码方法对视频LLM加速受限于严格的token精确匹配，限制了加速潜力。
LVSpec通过识别视觉相关的锚点token，并允许对视觉无关的token进行松散验证，实现更高效的推测解码。
实验表明，LVSpec在保持高性能的同时，显著提升了推理速度，并优于现有免训练推测解码方法。

📝 摘要（中文）

视频大语言模型（Video-LLM）在视频理解方面表现出色，但在自回归生成过程中推理延迟较高。推测解码（SD）通过应用草稿-验证范式来缓解这个问题，但现有方法受到严格的精确匹配规则的限制，严重限制了加速潜力。为了弥合这一差距，我们提出了LVSpec，这是第一个为Video-LLM量身定制的免训练松散SD框架。基于生成由稀疏的视觉相关锚点（需要严格性）和丰富的视觉无关填充（允许松散验证）控制的洞察，LVSpec采用轻量级的视觉相关token识别方案来准确地定位前者。为了进一步最大化接受率，我们用位置偏移容忍机制来增强这一点，该机制有效地挽救了位置不匹配但语义等效的token。实验表明，LVSpec实现了高保真度和速度：它保留了>99.8的目标性能，同时将Qwen2.5-VL-32B加速了2.70倍，将LLaVA-OneVision-72B加速了2.94倍。值得注意的是，与SOTA的Video-LLM免训练SD方法相比，它将平均接受长度和加速比分别提高了136%和35%。

🔬 方法详解

问题定义：视频大语言模型在视频理解任务中表现出色，但自回归生成过程的推理延迟较高。现有的推测解码方法依赖于严格的token精确匹配，这在很大程度上限制了加速的潜力，尤其是在视频这种信息密度较高的场景下，细微的语义差异可能导致整个推测序列被拒绝。

核心思路：LVSpec的核心思想是区分视频生成过程中视觉相关的关键token和视觉无关的填充token。对于视觉相关的token，需要严格匹配以保证生成质量；而对于视觉无关的token，可以允许一定程度的语义相似性，从而提高推测解码的接受率。通过这种松散的推测解码策略，可以在保证生成质量的前提下，显著提高推理速度。

技术框架：LVSpec主要包含两个核心模块：视觉相关token识别模块和位置偏移容忍机制。视觉相关token识别模块用于准确地识别哪些token是与视觉内容密切相关的，这些token需要严格匹配。位置偏移容忍机制允许在一定范围内接受位置不匹配但语义等价的token，从而提高推测解码的接受率。整体流程是首先使用一个小的draft模型生成一个推测序列，然后使用LVSpec对该序列进行验证，如果验证通过，则接受该序列，否则拒绝该序列。

关键创新：LVSpec的关键创新在于其松散的推测解码策略，它打破了传统推测解码方法中严格的token精确匹配规则。通过区分视觉相关的关键token和视觉无关的填充token，并对后者采用松散的验证标准，LVSpec在保证生成质量的同时，显著提高了推理速度。此外，LVSpec是一种免训练的方法，无需额外的训练数据或模型调整，可以直接应用于现有的视频LLM。

关键设计：视觉相关token识别模块使用一个轻量级的视觉特征提取器，提取每个token对应的视觉特征，然后计算这些特征与原始视频帧的视觉特征之间的相似度。如果相似度超过一个阈值，则认为该token是视觉相关的。位置偏移容忍机制允许在一定范围内（例如，前后几个token）查找语义相似的token。语义相似度可以使用预训练的词向量或语言模型来计算。具体参数设置需要根据具体的视频LLM和任务进行调整。

🖼️ 关键图片

📊 实验亮点

LVSpec在Qwen2.5-VL-32B和LLaVA-OneVision-72B上分别实现了2.70倍和2.94倍的加速，同时保持了>99.8%的目标性能。与SOTA的免训练推测解码方法相比，LVSpec将平均接受长度和加速比分别提高了136%和35%。这些结果表明，LVSpec是一种高效且实用的视频LLM加速方法。

🎯 应用场景

LVSpec可广泛应用于各种需要实时或近实时视频理解和生成的场景，例如智能监控、自动驾驶、视频会议、虚拟现实等。通过加速视频LLM的推理速度，LVSpec可以降低计算成本，提高用户体验，并促进视频LLM在实际应用中的普及。

📄 摘要（原文）

Video Large Language Models (Video-LLMs) excel in video understanding but suffer from high inference latency during autoregressive generation. Speculative Decoding (SD) mitigates this by applying a draft-and-verify paradigm, yet existing methods are constrained by rigid exact-match rules, severely limiting the acceleration potential. To bridge this gap, we propose LVSpec, the first training-free loosely SD framework tailored for Video-LLMs. Grounded in the insight that generation is governed by sparse visual-relevant anchors (mandating strictness) amidst abundant visual-irrelevant fillers (permitting loose verification), LVSpec employs a lightweight visual-relevant token identification scheme to accurately pinpoint the former. To further maximize acceptance, we augment this with a position-shift tolerant mechanism that effectively salvages positionally mismatched but semantically equivalent tokens. Experiments demonstrate that LVSpec achieves high fidelity and speed: it preserves >99.8 of target performance while accelerating Qwen2.5-VL-32B by 2.70x and LLaVA-OneVision-72B by 2.94x. Notably, it boosts the mean accepted length and speedup ratio by 136% and 35% compared to SOTA training-free SD methods for Video-LLMs.

See the Forest for the Trees: Loosely Speculative Decoding via Visual-Semantic Guidance for Efficient Inference of Video LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理