VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models

作者: Jintao Cheng, Haozhe Wang, Weibin Li, Gang Wang, Yipu Zhang, Xiaoyu Tang, Jin Wu, Xieyuanli Chen, Yunhui Liu, Wei Zhang

分类: cs.CV

发布日期: 2026-03-24

备注: 27 pages, 8 figures

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

VLA-IAP：通过交互对齐实现免训练视觉Token剪枝，加速VLA模型推理。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 Token剪枝 交互对齐 免训练 机器人 具身智能 模型加速

📋 核心要点

现有VLA模型推理成本高昂，现有剪枝方法忽略了VLA任务中连续物理交互的关键属性，导致早期任务阶段不稳定。
VLA-IAP提出“交互优先”范式，通过几何先验保留结构锚点，并采用动态调度策略，根据语义-运动对齐调整剪枝强度。
实验表明，VLA-IAP在LIBERO基准测试中实现了显著的加速和高成功率，并在多种环境和模型架构中表现出良好的泛化能力。

📝 摘要（中文）

视觉-语言-动作（VLA）模型在具身智能领域取得了快速进展，使机器人能够执行复杂的、指令驱动的任务。然而，随着模型容量和视觉上下文长度的增长，VLA系统的推理成本成为在资源受限平台上实际部署的主要瓶颈。现有的视觉token剪枝方法主要依赖于语义显著性或简单的时序线索，忽略了VLA任务中连续的物理交互这一基本属性。因此，当前的方法经常会剪掉视觉上稀疏但结构上至关重要的、支持操作的区域，导致早期任务阶段的不稳定行为。为了克服这个问题，我们提出了一种向显式的“交互优先”范式的转变。我们提出的 extbf{免训练}方法VLA-IAP（交互对齐剪枝）引入了一种几何先验机制来保留结构锚点，以及一种动态调度策略，该策略基于语义-运动对齐来调整剪枝强度。这实现了一种保守到激进的转变，确保了早期不确定性期间的鲁棒性，并在交互锁定后提高效率。大量的实验表明，VLA-IAP在LIBERO基准测试中实现了 extbf{97.8％的成功率}和 extbf{1.25倍的加速}，并且在保持与未剪枝骨干网络相当的性能的同时，实现了高达 extbf{1.54倍的加速}。此外，该方法在多种模型架构和三种不同的模拟环境以及真实的机器人平台上都表现出卓越且一致的性能，验证了其强大的泛化能力和实际适用性。

🔬 方法详解

问题定义：论文旨在解决视觉-语言-动作（VLA）模型在资源受限平台上部署时，由于模型容量和视觉上下文长度的增长而导致的推理成本过高的问题。现有视觉token剪枝方法主要依赖语义显著性或简单时序线索，忽略了VLA任务中连续物理交互的本质，容易剪掉对操作至关重要的结构区域，导致任务早期阶段的不稳定。

核心思路：论文的核心思路是提出一种“交互优先”的剪枝范式，即VLA-IAP。该方法的核心在于，在剪枝过程中，优先考虑并保留与物理交互相关的视觉token，从而保证模型在任务早期阶段的稳定性和鲁棒性。通过引入几何先验机制和动态调度策略，使得模型能够根据交互的进展自适应地调整剪枝强度。

技术框架：VLA-IAP方法主要包含两个关键模块：几何先验机制和动态调度策略。几何先验机制用于识别并保留图像中与结构和交互相关的关键区域，例如物体的边缘和角点。动态调度策略则根据语义-运动对齐程度，自适应地调整剪枝的强度，在任务早期采用保守的剪枝策略，保证稳定性，在交互锁定后采用更激进的剪枝策略，提高效率。

关键创新：VLA-IAP最关键的创新在于其“交互优先”的剪枝范式，这与现有方法中主要依赖语义显著性的剪枝策略有着本质的区别。通过显式地考虑物理交互，VLA-IAP能够更有效地保留对VLA任务至关重要的视觉信息，从而在保证性能的同时，显著降低推理成本。此外，该方法是免训练的，无需额外的训练数据或计算资源。

关键设计：几何先验机制通过提取图像的边缘和角点等几何特征来识别结构锚点。动态调度策略使用语义-运动对齐程度作为剪枝强度的调节因子。具体而言，论文可能使用了某种度量来衡量语义信息（例如，指令中的关键词）与运动信息（例如，机器人关节角度的变化）之间的相关性。具体的损失函数和网络结构细节需要在论文中进一步查找。

🖼️ 关键图片

📊 实验亮点

VLA-IAP在LIBERO基准测试中取得了显著的成果，成功率达到97.8%，同时实现了1.25倍的加速。在保持与未剪枝骨干网络相当的性能下，VLA-IAP实现了高达1.54倍的加速。此外，该方法在多种模型架构和三种不同的模拟环境以及真实的机器人平台上都表现出卓越且一致的性能，验证了其强大的泛化能力和实际适用性。

🎯 应用场景

VLA-IAP具有广泛的应用前景，可用于优化各种机器人应用中的VLA模型推理效率，尤其是在资源受限的场景下，如移动机器人、无人机等。该方法可以降低计算成本和功耗，提高机器人的响应速度和实时性，从而使其能够更好地执行复杂的、指令驱动的任务。未来，该方法有望推动具身智能技术在更多实际场景中的应用。

📄 摘要（原文）

Vision-Language-Action (VLA) models have rapidly advanced embodied intelligence, enabling robots to execute complex, instruction-driven tasks. However, as model capacity and visual context length grow, the inference cost of VLA systems becomes a major bottleneck for real-world deployment on resource-constrained platforms. Existing visual token pruning methods mainly rely on semantic saliency or simple temporal cues, overlooking the continuous physical interaction, a fundamental property of VLA tasks. Consequently, current approaches often prune visually sparse yet structurally critical regions that support manipulation, leading to unstable behavior during early task phases. To overcome this, we propose a shift toward an explicit Interaction-First paradigm. Our proposed \textbf{training-free} method, VLA-IAP (Interaction-Aligned Pruning), introduces a geometric prior mechanism to preserve structural anchors and a dynamic scheduling strategy that adapts pruning intensity based on semantic-motion alignment. This enables a conservative-to-aggressive transition, ensuring robustness during early uncertainty and efficiency once interaction is locked. Extensive experiments show that VLA-IAP achieves a \textbf{97.8\% success rate} with a \textbf{$1.25\times$ speedup} on the LIBERO benchmark, and up to \textbf{$1.54\times$ speedup} while maintaining performance \textbf{comparable to the unpruned backbone}. Moreover, the method demonstrates superior and consistent performance across multiple model architectures and three different simulation environments, as well as a real robot platform, validating its strong generalization capability and practical applicability. Our project website is: \href{https://chengjt1999.github.io/VLA-IAP.github.io/}{VLA-IAP.com}.

VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理