ERASE: Eliminating Redundant Visual Tokens via Adaptive Two-Stage Token Pruning
作者: Yuna Lee, Kyoungho Min, Yulhwa Kim
分类: cs.CV
发布日期: 2026-05-11
备注: 20 pages, 8 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出ERASE框架,通过自适应两阶段视觉Token剪枝技术解决多模态大模型计算冗余问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 Token剪枝 模型压缩 多模态理解 自适应计算 推理加速
📋 核心要点
- 现有视觉Token剪枝方法过度依赖模型内部语义特征,且缺乏针对不同输入图像复杂度进行动态调整的自适应机制,导致在复杂场景下性能损失较大。
- 论文提出ERASE框架,采用两阶段剪枝策略,通过评估图像复杂度动态分配剪枝强度,精准识别并保留对多模态理解至关重要的视觉Token。
- 实验表明,在Qwen2.5-VL-7B模型上,ERASE在85%的高剪枝率下仍能保持89.46%的原始精度,显著优于现有主流剪枝算法的性能表现。
📝 摘要(中文)
视觉语言模型(VLM)的最新进展使大语言模型(LLM)能够处理高分辨率图像,显著提升了多模态理解能力。然而,这一能力带来了海量的视觉Token,导致了巨大的计算开销。为了缓解这一问题,研究界提出了多种视觉Token剪枝方法。然而,现有方法主要依赖模型内部学习到的语义特征来捕捉视觉冗余,且缺乏根据输入图像复杂度调整剪枝策略的自适应机制。本文提出了ERASE,这是一个两阶段视觉Token剪枝框架,通过针对图像复杂度自适应的剪枝策略来识别并保留显著性Token。实验结果表明,ERASE在显著减少视觉Token的同时保持了模型精度。在Qwen2.5-VL-7B模型上,当Token剪枝比例达到85%时,ERASE保留了原始模型89.46%的精度,而现有最优方法仅能保留78.1%。
🔬 方法详解
问题定义:视觉语言模型处理高分辨率图像时产生大量冗余Token,导致推理延迟和计算成本激增。现有方法多采用静态剪枝或仅基于语义特征,难以平衡计算效率与多模态理解精度。
核心思路:引入自适应机制,根据图像内容的复杂程度动态调整剪枝策略。通过两阶段处理流程,先进行粗粒度筛选,再进行细粒度优化,确保在不同视觉复杂度下均能保留关键信息。
技术框架:ERASE包含两个阶段:第一阶段基于图像复杂度评估进行初步Token过滤,减少计算量;第二阶段利用自适应策略对剩余Token进行精炼,剔除冗余信息,最终将精简后的Token序列输入LLM。
关键创新:与现有方法相比,ERASE的核心创新在于“自适应性”,即剪枝强度不再是固定值,而是根据输入图像的视觉信息密度动态调整,从而在保持高压缩比的同时最大化保留语义完整性。
关键设计:该方法通过引入复杂度感知模块来量化图像信息量,并结合两阶段的剪枝阈值控制,在保证模型推理速度提升的同时,通过保留高显著性Token有效缓解了信息丢失问题。
🖼️ 关键图片
📊 实验亮点
ERASE在Qwen2.5-VL-7B模型上展现了卓越的性能。在85%的激进剪枝比例下,该方法实现了89.46%的精度保留率,远超现有最优方法(SOTA)的78.1%。实验证明,ERASE不仅在计算效率上实现了数量级的提升,更在复杂视觉任务中展现了极强的鲁棒性,有效解决了高分辨率图像处理中的性能瓶颈。
🎯 应用场景
该技术主要应用于资源受限的边缘计算设备、实时多模态交互系统以及大规模视觉语言模型的推理加速。通过降低Token冗余,ERASE能够显著提升VLM在移动端部署的响应速度,并降低云端推理的算力成本,对推动多模态AI在自动驾驶、智能安防及实时视频分析等领域的落地具有重要价值。
📄 摘要(原文)
Recent advancements in Vision-Language Models (VLMs) enable large language models (LLMs) to process high-resolution images, significantly improving real-world multimodal understanding. However, this capability introduces a large number of vision tokens, resulting in substantial computational overhead. To mitigate this issue, various vision token pruning methods have been proposed. Nevertheless, existing approaches predominantly rely on learned semantic features within the model to capture visual redundancy. Moreover, they lack adaptive mechanisms to adjust pruning strategies according to the complexity of the input image. In this paper, we propose ERASE, a two-stage vision token pruning framework that identifies and retains salient tokens through pruning strategies adaptive to image complexity. Experiment results demonstrate that ERASE significantly reduces vision tokens while preserving accuracy. For Qwen2.5-VL-7B, at a token pruning ratio of 85\%, ERASE retains 89.46% of the original model accuracy, whereas the best prior method retains only 78.1%. Our code is available at https://github.com/Tuna-Luna/ERASE.