Growing a Twig to Accelerate Large Vision-Language Models

📄 arXiv: 2503.14075v2 📥 PDF

作者: Zhenwei Shao, Mingyang Wang, Zhou Yu, Wenwen Pan, Yan Yang, Tao Wei, Hongyuan Zhang, Ning Mao, Wei Chen, Jun Yu

分类: cs.CV, cs.CL

发布日期: 2025-03-18 (更新: 2025-07-19)

备注: accepted at ICCV 2025


💡 一句话要点

提出TwigVLM,通过生长轻量级分支加速大型视觉语言模型,提升推理速度和精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型加速 Token剪枝 自推测解码 轻量级模型 多模态理解

📋 核心要点

  1. 现有VLM加速方法依赖早期层注意力进行token剪枝,但早期层注意力信号弱,导致精度损失。
  2. TwigVLM通过在VLM早期层添加轻量级分支,利用分支引导的token剪枝和自推测解码,提升精度和速度。
  3. 实验表明,基于LLaVA-1.5-7B,TwigVLM在剪枝88.9% tokens后保留96%精度,长文本生成加速154%。

📝 摘要(中文)

大型视觉语言模型(VLM)在开放世界多模态理解方面表现出卓越的能力,但其高计算开销对实际部署提出了巨大挑战。最近的一些工作提出了通过剪枝VLM早期层注意力图引导的冗余视觉tokens来加速VLM的方法。尽管这些token剪枝方法取得了一定的成功,但它们仍然存在两个主要缺点:(i)由于早期层中不敏感的注意力信号导致显著的精度下降,以及(ii)在生成长响应(例如,30个tokens)时速度提升有限。为了解决上述限制,我们提出了TwigVLM——一种简单而通用的架构,通过在基础VLM的早期层上生长一个轻量级分支。与大多数仅基于视觉token剪枝的现有VLM加速方法相比,我们的TwigVLM不仅通过采用分支引导的token剪枝(TTP)策略实现了更好的精度保持,而且通过利用自推测解码(SSD)策略产生了更高的生成速度。以LLaVA-1.5-7B作为基础VLM,实验结果表明,TwigVLM在剪枝88.9%的视觉tokens后,保留了96%的原始性能,并在生成长响应时实现了154%的加速,在精度和速度方面都显著优于最先进的VLM加速方法。

🔬 方法详解

问题定义:论文旨在解决大型视觉语言模型(VLM)计算开销大,难以实际部署的问题。现有的基于视觉token剪枝的VLM加速方法,依赖于VLM早期层的注意力机制来判断哪些token是冗余的,可以被剪枝。然而,早期层的注意力信号通常不够敏感,导致剪枝后模型性能显著下降。此外,现有方法在生成长文本时,加速效果有限。

核心思路:论文的核心思路是在VLM的早期层“生长”一个轻量级的“分支”(Twig),利用这个分支来辅助token剪枝和加速解码。这个分支可以提供更可靠的token重要性评估,从而减少剪枝带来的精度损失。同时,利用分支进行自推测解码,可以显著提升长文本生成的速度。

技术框架:TwigVLM的整体架构包括:1) 基础VLM(例如LLaVA-1.5-7B);2) 在基础VLM早期层添加的轻量级分支(Twig);3) 分支引导的token剪枝(TTP)模块;4) 自推测解码(SSD)模块。首先,图像输入经过基础VLM的视觉编码器,然后在早期层与Twig并行处理。Twig输出用于指导TTP模块进行token剪枝。剪枝后的token序列进入基础VLM的后续层进行处理,最终通过SSD模块生成文本响应。

关键创新:论文的关键创新在于引入了“分支”的概念,并将其应用于VLM的加速。与直接依赖基础VLM早期层注意力进行token剪枝的方法不同,TwigVLM通过训练一个专门的分支来提供更准确的token重要性评估,从而在保证精度的前提下实现更高的压缩率。此外,自推测解码策略充分利用了分支的预测能力,进一步提升了生成速度。

关键设计:Twig是一个轻量级的Transformer模块,其结构与基础VLM的Transformer层相似,但参数量更少。TTP模块使用Twig的注意力权重来计算每个token的重要性得分,并根据得分进行剪枝。SSD模块利用Twig预测下一个token的概率分布,并与基础VLM的预测结果进行比较,从而加速解码过程。损失函数包括token预测损失和知识蒸馏损失,用于训练Twig并使其能够模仿基础VLM的行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于LLaVA-1.5-7B,TwigVLM在剪枝88.9%的视觉tokens后,仍然能够保留96%的原始性能。在生成长文本响应时,TwigVLM实现了154%的加速,显著优于现有的VLM加速方法。这些结果表明,TwigVLM在精度和速度方面都取得了显著的提升。

🎯 应用场景

TwigVLM可应用于各种需要快速、低成本部署大型视觉语言模型的场景,例如移动设备上的智能助手、实时图像字幕生成、视频内容理解和检索等。该方法降低了VLM的计算需求,使其能够在资源受限的环境中运行,从而扩展了VLM的应用范围,并促进了多模态人工智能的普及。

📄 摘要(原文)

Large vision-language models (VLMs) have demonstrated remarkable capabilities in open-world multimodal understanding, yet their high computational overheads pose great challenges for practical deployment. Some recent works have proposed methods to accelerate VLMs by pruning redundant visual tokens guided by the attention maps of VLM's early layers. Despite the success of these token pruning methods, they still suffer from two major shortcomings: (i) considerable accuracy drop due to insensitive attention signals in early layers, and (ii) limited speedup when generating long responses (e.g., 30 tokens). To address the limitations above, we present TwigVLM -- a simple and general architecture by growing a lightweight twig upon an early layer of the base VLM. Compared with most existing VLM acceleration methods purely based on visual token pruning, our TwigVLM not only achieves better accuracy retention by employing a twig-guided token pruning (TTP) strategy, but also yields higher generation speed by utilizing a self-speculative decoding (SSD) strategy. Taking LLaVA-1.5-7B as the base VLM, experimental results show that TwigVLM preserves 96% of the original performance after pruning 88.9% of visual tokens and achieves 154% speedup in generating long responses, delivering significantly better performance in terms of both accuracy and speed over the state-of-the-art VLM acceleration methods.