Fast SAM2 with Text-Driven Token Pruning

📄 arXiv: 2512.21333v1 📥 PDF

作者: Avilasha Mandal, Chaoning Zhang, Fachrina Dewi Puspitasari, Xudong Wang, Jiaquan Zhang, Caiyan Qin, Guoqing Wang, Yang Yang, Heng Tao Shen

分类: cs.CV

发布日期: 2025-12-24

备注: 28 pages, 9 figures


💡 一句话要点

提出基于文本驱动的token剪枝Fast SAM2,加速视频目标分割并降低资源消耗。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频目标分割 token剪枝 文本引导 模型加速 轻量化 SAM2 视觉基础模型

📋 核心要点

  1. 现有SAM2方法处理视频分割时,对所有视觉tokens进行时间传播,计算和内存开销大,限制了实际应用。
  2. 提出文本引导的token剪枝框架,在时间传播前,根据视觉上下文、文本语义和不确定性选择重要tokens。
  3. 实验表明,该方法在保持分割精度的同时,显著提升推理速度并降低GPU内存占用,最高可达42.50%和37.41%。

📝 摘要(中文)

Segment Anything Model 2 (SAM2) 作为视觉基础模型,在prompt驱动的视频目标分割方面取得了显著进展。然而,由于处理跨时间密集视觉token的高计算和内存成本,其实际部署仍然受到限制。SAM2通常将图像编码器产生的所有视觉token通过下游时间推理模块传播,而不管它们与目标对象的相关性,导致二次内存注意力开销,降低了可扩展性。本文提出了一种文本引导的token剪枝框架,通过在时间传播之前选择性地降低token密度来提高推理效率,而无需修改底层分割架构。该方法在视觉编码之后和基于内存的传播之前运行,使用轻量级路由机制对token进行排序,该机制集成了局部视觉上下文、来自以对象为中心的文本描述(用户提供或自动生成)的语义相关性以及有助于保留模糊或边界关键区域的不确定性线索。通过仅保留信息量最大的token用于下游处理,该方法减少了冗余计算,同时保持了分割保真度。在多个具有挑战性的视频分割基准上的大量实验表明,后编码器token剪枝为高效、prompt感知的视频分割提供了一种实用且有效的途径,与未剪枝的基线SAM2相比,实现了高达42.50%的推理速度提升和37.41%的GPU内存使用量降低,同时保持了具有竞争力的J和F性能。这些结果突出了早期token选择在提高基于transformer的视频分割系统在实时和资源受限应用中的可扩展性的潜力。

🔬 方法详解

问题定义:SAM2在视频目标分割中面临计算和内存瓶颈,主要原因是其对所有视觉tokens进行无差别的时间传播,导致计算冗余和内存占用过高。现有方法缺乏有效机制来区分重要和不重要的tokens,从而无法在保证分割质量的前提下降低计算复杂度。

核心思路:本文的核心思路是在视觉编码后、时间传播前,对tokens进行选择性剪枝,只保留对分割任务真正重要的tokens。通过引入文本信息作为指导,可以更准确地判断tokens与目标对象的相关性,从而在减少计算量的同时,避免丢失关键信息。

技术框架:该方法主要包含以下几个阶段:1) 视觉编码:使用SAM2的图像编码器提取视觉特征;2) Token路由:利用轻量级路由机制,综合考虑局部视觉上下文、文本语义相关性和不确定性线索,对tokens进行排序;3) Token剪枝:根据排序结果,选择保留信息量最大的tokens,丢弃冗余tokens;4) 时间传播和分割:将保留的tokens输入到下游时间推理模块,进行视频目标分割。

关键创新:该方法最重要的创新点在于引入了文本信息来指导token剪枝。通过将文本描述与视觉特征相结合,可以更准确地评估tokens的重要性,从而实现更有效的剪枝。此外,该方法在后编码器阶段进行剪枝,无需修改SAM2的底层架构,易于集成和部署。

关键设计:Token路由机制是关键。它综合考虑了三个因素:1) 局部视觉上下文:利用局部邻域信息来评估tokens的视觉显著性;2) 文本语义相关性:通过计算tokens的视觉特征与文本描述的语义相似度,判断tokens与目标对象的相关性;3) 不确定性线索:保留边界区域或模糊区域的tokens,以避免丢失关键细节。这三个因素通过加权融合的方式,得到每个token的最终得分,用于排序和剪枝。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个视频分割基准上实现了显著的性能提升。与未剪枝的SAM2相比,推理速度提高了高达42.50%,GPU内存使用量降低了37.41%,同时保持了具有竞争力的分割精度(J和F指标)。这些结果证明了该方法在提高视频分割效率方面的有效性。

🎯 应用场景

该研究成果可应用于实时视频监控、自动驾驶、机器人导航等领域。通过降低视频分割的计算成本,可以使这些应用在资源受限的设备上运行,例如移动设备或嵌入式系统。此外,该方法还可以用于提高视频编辑和内容创作的效率,例如自动抠图和视频特效。

📄 摘要(原文)

Segment Anything Model 2 (SAM2), a vision foundation model has significantly advanced in prompt-driven video object segmentation, yet their practical deployment remains limited by the high computational and memory cost of processing dense visual tokens across time. The SAM2 pipelines typically propagate all visual tokens produced by the image encoder through downstream temporal reasoning modules, regardless of their relevance to the target object, resulting in reduced scalability due to quadratic memory attention overhead. In this work, we introduce a text-guided token pruning framework that improves inference efficiency by selectively reducing token density prior to temporal propagation, without modifying the underlying segmentation architecture. Operating after visual encoding and before memory based propagation, our method ranks tokens using a lightweight routing mechanism that integrates local visual context, semantic relevance derived from object-centric textual descriptions (either user-provided or automatically generated), and uncertainty cues that help preserve ambiguous or boundary critical regions. By retaining only the most informative tokens for downstream processing, the proposed approach reduces redundant computation while maintaining segmentation fidelity. Extensive experiments across multiple challenging video segmentation benchmarks demonstrate that post-encoder token pruning provides a practical and effective pathway to efficient, prompt-aware video segmentation, achieving up to 42.50 percent faster inference and 37.41 percent lower GPU memory usage compared to the unpruned baseline SAM2, while preserving competitive J and F performance. These results highlight the potential of early token selection to improve the scalability of transformer-based video segmentation systems for real-time and resource-constrained applications.