SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning
作者: Hanzhen Wang, Jiaming Xu, Jiayi Pan, Yongkang Zhou, Guohao Dai
分类: cs.CV, cs.AI, cs.RO
发布日期: 2025-09-06
备注: 8pages, 10 figures,
💡 一句话要点
SpecPrune-VLA:提出动作感知自适应推测剪枝加速视觉-语言-动作模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 模型剪枝 动作感知 全局上下文 局部信息 模型加速 机器人 LIBERO数据集
📋 核心要点
- 现有VLA模型剪枝方法仅依赖当前动作的局部信息,忽略全局上下文,导致性能下降和加速效果不佳。
- SpecPrune-VLA利用全局历史和局部上下文进行两级剪枝,并使用动作感知控制器调整剪枝策略。
- 实验表明,SpecPrune-VLA在LIBERO数据集上实现了显著的加速,同时保持了可忽略的成功率损失。
📝 摘要(中文)
本文提出SpecPrune-VLA,一种用于加速视觉-语言-动作(VLA)模型的训练无关方法。现有剪枝方法仅利用当前动作的局部信息进行token剪枝,忽略了来自先前动作的全局上下文,导致成功率显著下降和加速效果有限。SpecPrune-VLA利用局部和全局信息进行更智能的token选择,包含两级剪枝和启发式控制:(1)动作级别的静态剪枝:使用全局历史和局部上下文减少每个动作的视觉token;(2)层级别的动态剪枝:基于层特定的重要性剪枝每层的token;(3)轻量级的动作感知控制器:将动作分类为粗粒度/细粒度(按速度),调整剪枝强度,因为细粒度动作对剪枝更敏感。在LIBERO上的实验表明,SpecPrune-VLA在NVIDIA A800上实现了1.46倍的加速,在NVIDIA GeForce RTX 3090上实现了1.57倍的加速,与OpenVLA-OFT相比,成功率损失可忽略不计。
🔬 方法详解
问题定义:现有VLA模型的剪枝方法主要依赖于当前动作的局部信息,忽略了历史动作提供的全局上下文信息。这种局部性导致剪枝后的模型性能显著下降,尤其是在需要精细动作理解的场景下。因此,如何在保证模型性能的前提下,更有效地剪枝VLA模型,是一个亟待解决的问题。
核心思路:SpecPrune-VLA的核心思路是同时利用局部(当前动作)和全局(历史动作)信息进行token选择。通过考虑历史动作的上下文,模型可以更准确地评估当前动作中哪些token是重要的,从而避免过度剪枝导致的信息损失。此外,该方法还引入了动作感知控制器,根据动作的粒度动态调整剪枝策略。
技术框架:SpecPrune-VLA包含三个主要模块:(1)动作级别的静态剪枝:利用全局历史和局部上下文,静态地减少每个动作的视觉token数量。(2)层级别的动态剪枝:根据每一层的重要性,动态地剪枝token,允许不同层具有不同的剪枝比例。(3)轻量级的动作感知控制器:根据动作的粒度(粗粒度或细粒度)调整剪枝的激进程度。该控制器通过分析动作的速度来判断其粒度,并相应地调整剪枝参数。
关键创新:SpecPrune-VLA的关键创新在于其动作感知的全局-局部信息融合剪枝策略。与现有方法仅关注局部信息不同,SpecPrune-VLA同时考虑了历史动作的全局上下文,从而实现了更智能的token选择。此外,动作感知控制器的引入使得模型能够根据动作的特性动态调整剪枝策略,进一步提高了剪枝的效率和性能。
关键设计:动作感知控制器是SpecPrune-VLA的关键设计之一。该控制器通过分析动作的速度来判断其粒度,并使用一个简单的分类器将动作分为粗粒度和细粒度。对于细粒度动作,控制器会降低剪枝的激进程度,以避免过度剪枝导致的信息损失。此外,层级别的动态剪枝允许不同层具有不同的剪枝比例,从而更好地适应不同层的特征表示能力。具体的剪枝比例和阈值等参数,可能需要根据具体的VLA模型和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
SpecPrune-VLA在LIBERO数据集上取得了显著的加速效果,在NVIDIA A800上实现了1.46倍的加速,在NVIDIA GeForce RTX 3090上实现了1.57倍的加速,与OpenVLA-OFT相比,成功率损失可忽略不计。这表明SpecPrune-VLA能够在保证模型性能的前提下,有效地降低VLA模型的计算复杂度。
🎯 应用场景
SpecPrune-VLA可应用于各种需要高效视觉-语言-动作理解的机器人应用,例如家庭服务机器人、自动驾驶、智能制造等。通过降低VLA模型的计算复杂度,该方法可以使这些应用在资源受限的设备上运行,并提高响应速度和实时性。此外,该方法还可以用于训练更大规模的VLA模型,从而提高模型的性能和泛化能力。
📄 摘要(原文)
Pruning accelerates compute-bound models by reducing computation. Recently applied to Vision-Language-Action (VLA) models, existing methods prune tokens using only local info from current action, ignoring global context from prior actions, causing >20% success rate drop and limited speedup. We observe high similarity across consecutive actions and propose leveraging both local (current) and global (past) info for smarter token selection. We introduce SpecPrune-VLA, a training-free method with two-level pruning and heuristic control: (1) Static pruning at action level: uses global history and local context to reduce visual tokens per action; (2) Dynamic pruning at layer level: prunes tokens per layer based on layer-specific importance; (3) Lightweight action-aware controller: classifies actions as coarse/fine-grained (by speed), adjusting pruning aggressiveness since fine-grained actions are pruning-sensitive. Experiments on LIBERO show SpecPrune-VLA achieves 1.46 times speedup on NVIDIA A800 and 1.57 times on NVIDIA GeForce RTX 3090 vs. OpenVLA-OFT, with negligible success rate loss.