HiViS: Hiding Visual Tokens from the Drafter for Speculative Decoding in Vision-Language Models
作者: Zhinan Xie, Peisong Wang, Shuang Qiu, Jian Cheng
分类: cs.LG, cs.AI
发布日期: 2025-09-28 (更新: 2025-11-20)
💡 一句话要点
HiViS:通过对Drafter隐藏视觉tokens,加速视觉-语言模型中的推测解码。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 推测解码 模型加速 视觉tokens 语义融合
📋 核心要点
- 现有视觉-语言模型推测解码受限于视觉tokens带来的计算负担和语义不一致性,效率提升受限。
- HiViS框架通过隐藏视觉tokens,使Drafter无需显式处理视觉信息,从而降低计算负担并保持语义一致性。
- 实验结果表明,HiViS显著提高了平均接受长度和加速比,验证了其在加速视觉-语言模型推理方面的有效性。
📝 摘要(中文)
推测解码已被证明能有效加速大型语言模型(LLM)的推理,但由于视觉tokens带来的计算负担和语义不一致性,其在视觉-语言模型(VLM)中的扩展仍然有限。最近的研究表明,大型VLM中的视觉tokens高度冗余,移除大部分视觉tokens并不会影响生成质量。基于此,我们提出了HiViS(Hiding Visual Tokens from the Drafter for Speculative Decoding in Vision-Language Models)框架,该框架利用目标VLM作为语义融合模型,允许Drafter在不显式处理视觉tokens的情况下获取视觉信息,确保Drafter的预填充序列长度与文本tokens的长度相匹配。此外,HiViS采用时间步感知对齐训练方案,允许Drafter在独立起草过程中,在步长相关的偏差校正残差的指导下,自主传播和细化指导性的视觉-文本语义。在代表性VLM和基准测试上的大量实验表明,HiViS在平均接受长度和加速比方面取得了显著提升。
🔬 方法详解
问题定义:现有视觉-语言模型(VLM)的推测解码方法,由于需要处理大量的视觉tokens,导致计算负担过重,并且视觉tokens可能引入语义不一致性,从而限制了推测解码的加速效果。因此,如何降低视觉tokens的计算负担,同时保证语义一致性,是本文要解决的关键问题。
核心思路:本文的核心思路是,利用目标VLM本身作为语义融合模型,让Drafter(推测解码中的草稿生成器)在不直接处理视觉tokens的情况下,也能获取视觉信息。通过隐藏视觉tokens,Drafter的输入序列长度只包含文本tokens,从而降低计算负担,并避免了视觉tokens可能引入的语义噪声。
技术框架:HiViS框架主要包含两个部分:一是视觉信息隐藏机制,二是时间步感知对齐训练方案。视觉信息隐藏机制通过将目标VLM作为语义融合模型,将视觉信息编码到文本tokens中,供Drafter使用。时间步感知对齐训练方案则用于训练Drafter,使其能够自主传播和细化视觉-文本语义,并利用步长相关的偏差校正残差进行指导。整体流程是,首先利用目标VLM对视觉信息进行编码,然后Drafter基于编码后的文本tokens进行草稿生成,最后Verifier(推测解码中的验证器)验证草稿的正确性。
关键创新:HiViS的关键创新在于,它首次提出了在VLM推测解码中隐藏视觉tokens的思想,并设计了相应的框架来实现这一目标。与现有方法相比,HiViS不需要Drafter直接处理视觉tokens,从而降低了计算负担,并避免了视觉tokens可能引入的语义噪声。此外,时间步感知对齐训练方案也能够有效提升Drafter的生成质量。
关键设计:HiViS的关键设计包括:1) 如何利用目标VLM作为语义融合模型,将视觉信息编码到文本tokens中;2) 如何设计时间步感知对齐训练方案,以训练Drafter自主传播和细化视觉-文本语义;3) 如何设计步长相关的偏差校正残差,以指导Drafter的生成过程。具体的网络结构和损失函数等细节,论文中应该有更详细的描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HiViS在多个代表性VLM和基准测试上取得了显著提升。具体来说,HiViS提高了平均接受长度和加速比。这些结果验证了HiViS在加速VLM推理方面的有效性,并表明其具有广泛的应用前景。具体的性能数据和提升幅度,需要在论文中查找(未知)。
🎯 应用场景
HiViS框架可应用于各种需要视觉-语言模型进行快速推理的场景,例如图像描述生成、视觉问答、多模态对话等。通过加速VLM的推理速度,HiViS可以提高用户体验,并降低计算成本。未来,HiViS还可以扩展到其他多模态模型中,以加速其推理过程。
📄 摘要(原文)
Speculative decoding has proven effective for accelerating inference in Large Language Models (LLMs), yet its extension to Vision-Language Models (VLMs) remains limited by the computational burden and semantic inconsistency introduced by visual tokens. Recent studies reveal that visual tokens in large VLMs are highly redundant, and most of them can be removed without compromising generation quality. Motivated by this observation, we propose HiViS (Hiding Visual Tokens from the Drafter for Speculative Decoding in Vision-Language Models), a framework that utilizes the target VLM as a semantic fusion model, allowing the drafter to obtain visual information without explicitly processing visual tokens, ensuring that the drafter's prefill sequence length matches that of the textual tokens. Furthermore, HiViS employs a time-step-aware aligned training scheme that allows the drafter to autonomously propagate and refine instructive visual-textual semantics during independent drafting, guided by step-dependent bias-correction residuals. Extensive experiments across representative VLMs and benchmarks demonstrate that HiViS achieves significant improvements in average acceptance length and speedup ratio.