See the Forest for the Trees: Loosely Speculative Decoding via Visual-Semantic Guidance for Efficient Inference of Video LLMs
作者: Yicheng Ji, Jun Zhang, Jinpeng Chen, Cong Wang, Lidan Shou, Gang Chen, Huan Li
分类: cs.CL
发布日期: 2026-04-07
备注: ACL'2026 MainConference
💡 一句话要点
提出LVSpec,通过视觉语义引导的松散推测解码加速视频LLM推理。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频大语言模型 推测解码 视觉语义引导 模型加速 免训练方法
📋 核心要点
- 现有推测解码方法对视频LLM加速受限于严格的token精确匹配,限制了加速潜力。
- LVSpec通过识别视觉相关的锚点token,并允许对视觉无关的token进行松散验证,实现更高效的推测解码。
- 实验表明,LVSpec在保持高性能的同时,显著提升了推理速度,并优于现有免训练推测解码方法。
📝 摘要(中文)
视频大语言模型(Video-LLM)在视频理解方面表现出色,但在自回归生成过程中推理延迟较高。推测解码(SD)通过应用草稿-验证范式来缓解这个问题,但现有方法受到严格的精确匹配规则的限制,严重限制了加速潜力。为了弥合这一差距,我们提出了LVSpec,这是第一个为Video-LLM量身定制的免训练松散SD框架。基于生成由稀疏的视觉相关锚点(需要严格性)和丰富的视觉无关填充(允许松散验证)控制的洞察,LVSpec采用轻量级的视觉相关token识别方案来准确地定位前者。为了进一步最大化接受率,我们用位置偏移容忍机制来增强这一点,该机制有效地挽救了位置不匹配但语义等效的token。实验表明,LVSpec实现了高保真度和速度:它保留了>99.8的目标性能,同时将Qwen2.5-VL-32B加速了2.70倍,将LLaVA-OneVision-72B加速了2.94倍。值得注意的是,与SOTA的Video-LLM免训练SD方法相比,它将平均接受长度和加速比分别提高了136%和35%。
🔬 方法详解
问题定义:视频大语言模型在视频理解任务中表现出色,但自回归生成过程的推理延迟较高。现有的推测解码方法依赖于严格的token精确匹配,这在很大程度上限制了加速的潜力,尤其是在视频这种信息密度较高的场景下,细微的语义差异可能导致整个推测序列被拒绝。
核心思路:LVSpec的核心思想是区分视频生成过程中视觉相关的关键token和视觉无关的填充token。对于视觉相关的token,需要严格匹配以保证生成质量;而对于视觉无关的token,可以允许一定程度的语义相似性,从而提高推测解码的接受率。通过这种松散的推测解码策略,可以在保证生成质量的前提下,显著提高推理速度。
技术框架:LVSpec主要包含两个核心模块:视觉相关token识别模块和位置偏移容忍机制。视觉相关token识别模块用于准确地识别哪些token是与视觉内容密切相关的,这些token需要严格匹配。位置偏移容忍机制允许在一定范围内接受位置不匹配但语义等价的token,从而提高推测解码的接受率。整体流程是首先使用一个小的draft模型生成一个推测序列,然后使用LVSpec对该序列进行验证,如果验证通过,则接受该序列,否则拒绝该序列。
关键创新:LVSpec的关键创新在于其松散的推测解码策略,它打破了传统推测解码方法中严格的token精确匹配规则。通过区分视觉相关的关键token和视觉无关的填充token,并对后者采用松散的验证标准,LVSpec在保证生成质量的同时,显著提高了推理速度。此外,LVSpec是一种免训练的方法,无需额外的训练数据或模型调整,可以直接应用于现有的视频LLM。
关键设计:视觉相关token识别模块使用一个轻量级的视觉特征提取器,提取每个token对应的视觉特征,然后计算这些特征与原始视频帧的视觉特征之间的相似度。如果相似度超过一个阈值,则认为该token是视觉相关的。位置偏移容忍机制允许在一定范围内(例如,前后几个token)查找语义相似的token。语义相似度可以使用预训练的词向量或语言模型来计算。具体参数设置需要根据具体的视频LLM和任务进行调整。
🖼️ 关键图片
📊 实验亮点
LVSpec在Qwen2.5-VL-32B和LLaVA-OneVision-72B上分别实现了2.70倍和2.94倍的加速,同时保持了>99.8%的目标性能。与SOTA的免训练推测解码方法相比,LVSpec将平均接受长度和加速比分别提高了136%和35%。这些结果表明,LVSpec是一种高效且实用的视频LLM加速方法。
🎯 应用场景
LVSpec可广泛应用于各种需要实时或近实时视频理解和生成的场景,例如智能监控、自动驾驶、视频会议、虚拟现实等。通过加速视频LLM的推理速度,LVSpec可以降低计算成本,提高用户体验,并促进视频LLM在实际应用中的普及。
📄 摘要(原文)
Video Large Language Models (Video-LLMs) excel in video understanding but suffer from high inference latency during autoregressive generation. Speculative Decoding (SD) mitigates this by applying a draft-and-verify paradigm, yet existing methods are constrained by rigid exact-match rules, severely limiting the acceleration potential. To bridge this gap, we propose LVSpec, the first training-free loosely SD framework tailored for Video-LLMs. Grounded in the insight that generation is governed by sparse visual-relevant anchors (mandating strictness) amidst abundant visual-irrelevant fillers (permitting loose verification), LVSpec employs a lightweight visual-relevant token identification scheme to accurately pinpoint the former. To further maximize acceptance, we augment this with a position-shift tolerant mechanism that effectively salvages positionally mismatched but semantically equivalent tokens. Experiments demonstrate that LVSpec achieves high fidelity and speed: it preserves >99.8 of target performance while accelerating Qwen2.5-VL-32B by 2.70x and LLaVA-OneVision-72B by 2.94x. Notably, it boosts the mean accepted length and speedup ratio by 136% and 35% compared to SOTA training-free SD methods for Video-LLMs.