SAFE-Pruner: Semantic Attention-Guided Future-Aware Token Pruning for Efficient Vision-Language-Action Manipulation
作者: Shilin Ma, Chubin Zhang, Changyuan Wang, Yuji Wang, Yue Wu, Zixuan Wang, Jingqi Tian, Zheng Zhu, Yansong Tang
分类: cs.CV
发布日期: 2026-05-28
💡 一句话要点
提出SAFE-Pruner,通过语义注意力引导的未来感知token剪枝加速VLA模型推理。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作 VLA模型 Token剪枝 注意力机制 机器人控制
📋 核心要点
- 现有VLA模型token剪枝方法依赖浅层信息,易丢失深层网络所需的重要视觉信息。
- SAFE-Pruner利用语义注意力一致性,预测深层token显著性,避免过早移除关键token。
- 实验表明,SAFE-Pruner在保证成功率的前提下,显著提升了VLA模型的推理速度。
📝 摘要(中文)
本文提出SAFE-Pruner,一个即插即用的剪枝框架,旨在加速视觉-语言-动作(VLA)模型的实时推理,这对于机器人控制至关重要。现有视觉token剪枝方法主要依赖浅层线索进行剪枝决策,容易丢弃深层网络所需的视觉信息。SAFE-Pruner通过将未来层的注意力线索融入剪枝决策来解决这个问题。基于VLA模型在执行步骤中将注意力集中在相同语义实体上的语义注意力一致性,设计了一种前瞻性策略来预测深层token的显著性,防止关键token的过早移除,从而实现更稳定的加速。此外,引入自适应子任务划分策略来检测突发的注意力转移,提高预测精度和剪枝可靠性。在模拟和真实环境中的大量实验表明,该方法在成功率降低小于1.7%的情况下,实现了高达1.89倍的加速,并且性能优于最先进的方法高达1.9%。
🔬 方法详解
问题定义:VLA模型在机器人控制中需要实时推理,但现有token剪枝方法仅依赖浅层特征,容易错误地移除对深层网络重要的token,导致性能下降。因此,需要一种更智能的剪枝策略,能够在加速推理的同时,保持模型的性能。
核心思路:SAFE-Pruner的核心思路是利用VLA模型在不同执行步骤中对相同语义实体具有注意力一致性的特点,通过预测未来层的token显著性来指导当前层的剪枝决策。这样可以避免过早地移除对后续步骤重要的token,从而提高剪枝的稳定性和有效性。
技术框架:SAFE-Pruner是一个即插即用的框架,可以应用于各种VLA模型。其主要包含以下几个模块:1) 语义注意力预测模块:基于当前层的注意力信息,预测未来层的token显著性。2) 自适应子任务划分模块:检测注意力转移,提高预测精度。3) 剪枝决策模块:综合考虑当前层和未来层的token显著性,决定哪些token需要被剪枝。
关键创新:SAFE-Pruner的关键创新在于其前瞻性的剪枝策略,即不仅考虑当前层的token重要性,还预测未来层的token重要性。这种方法能够更准确地评估token的价值,避免关键信息的丢失。此外,自适应子任务划分模块能够有效处理注意力转移的情况,进一步提高预测精度。
关键设计:语义注意力预测模块使用注意力机制来预测未来层的token显著性。自适应子任务划分模块通过检测注意力分布的变化来判断是否发生注意力转移。剪枝决策模块使用一个可学习的权重来平衡当前层和未来层的token显著性。具体的损失函数设计未知,网络结构细节未知。
🖼️ 关键图片
📊 实验亮点
SAFE-Pruner在模拟和真实环境的实验中均表现出色。在保证成功率下降小于1.7%的情况下,实现了高达1.89倍的推理速度提升。与现有最先进的剪枝方法相比,SAFE-Pruner的性能提升高达1.9%。这些结果表明,SAFE-Pruner是一种高效且可靠的VLA模型剪枝方法。
🎯 应用场景
SAFE-Pruner可广泛应用于机器人控制、自动驾驶等需要实时VLA模型推理的领域。通过加速模型推理,可以提高机器人的响应速度和决策效率,使其能够更好地适应复杂多变的环境。该研究还有助于降低VLA模型在资源受限设备上的部署成本,推动VLA技术在更广泛领域的应用。
📄 摘要(原文)
Real-time inference of vision-language-action (VLA) models is essential for robotic control. While visual token pruning has shown strong potential for accelerating inference, most existing methods mainly base pruning decisions on shallow-layer cues and risk discarding visual information required by deep layers. To address this issue, we propose SAFE-Pruner, a plug-and-play pruning framework that incorporates attention cues of future layers into pruning decisions. Specifically, we identify semantic attention consistency, the tendency that VLA models concentrate their attention probability mass on the same semantic entity across execution steps. Based on this observation, we design a forward-looking strategy to forecast the token saliency in deep layers, which prevents the premature removal of critical tokens and leads to more stable acceleration. We further introduce an adaptive subtask division strategy to detect abrupt attention shifts, thereby improving forecasting accuracy and pruning reliability. Extensive experiments in simulation and real-world settings demonstrate that our method achieves up to 1.89x speedup with a minimal degradation in success rate of less than 1.7%, while outperforming state-of-the-art methods by up to 1.9%.