See What Matters: Differentiable Grid Sample Pruning for Generalizable Vision-Language-Action Model

作者: Yixu Feng, Zinan Zhao, Yanxiang Ma, Chenghao Xia, Chengbin Du, Yunke Wang, Chang Xu

分类: cs.RO, cs.CV

发布日期: 2026-05-12

期刊: Proceedings of the Forty-third International Conference on Machine Learning, 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出可微网格采样器GridS，用于通用视觉-语言-动作模型中的几何感知型token剪枝。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人操作 token剪枝 可微采样 几何感知

📋 核心要点

VLA模型计算成本高，现有token剪枝方法在压缩率和几何信息保留之间存在trade-off。
提出可微网格采样器GridS，通过任务感知的连续token重采样，保留关键空间信息并实现高压缩率。
实验表明，GridS在LIBERO和真实机器人平台上实现了76%的FLOPs减少，且成功率没有下降。

📝 摘要（中文）

视觉-语言-动作(VLA)模型在机器人操作方面展现了巨大的潜力，但其高昂的计算成本阻碍了实时部署。现有的token剪枝方法面临着根本性的权衡：激进的剪枝不可避免地会丢弃关键的几何细节，如接触点，从而导致严重的性能下降。这迫使人们做出妥协，限制了可实现的压缩率，从而限制了潜在的加速。我们认为，打破这种权衡需要将压缩重新思考为视觉编码器中一种几何感知的、连续的token重采样。为此，我们提出了可微网格采样器(GridS)，这是一个即插即用的模块，用于在VLA中执行任务感知的、连续的视觉token重采样。通过自适应地预测最小的显著坐标集，并通过可微插值提取特征，GridS在实现大幅压缩(少于10%的原始视觉token)的同时，保留了必要的空间信息。在LIBERO基准测试和真实机器人平台上的实验表明，GridS验证了迄今为止报告的最低可行视觉token数量，实现了76%的FLOPs减少，而成功率没有下降。代码可在https://github.com/Fediory/Grid-Sampler获得。

🔬 方法详解

问题定义：VLA模型在机器人操作中应用受限于其高计算成本。现有的token剪枝方法为了降低计算量，会不可避免地丢弃重要的几何信息（例如接触点），导致性能显著下降。因此，如何在保证性能的前提下，有效压缩视觉token数量，是VLA模型部署的关键问题。

核心思路：论文的核心思路是将视觉token的压缩问题转化为一个几何感知的、连续的token重采样过程。通过学习哪些位置的视觉信息对于完成任务至关重要，并只保留这些位置的信息，从而在大幅降低计算量的同时，尽可能地保留关键的几何信息。

技术框架：GridS是一个即插即用的模块，可以嵌入到现有的VLA模型的视觉编码器中。其主要流程包括：首先，GridS接收视觉编码器的输出特征图；然后，GridS预测一组显著坐标，这些坐标代表了图像中最重要的位置；接着，GridS使用可微插值方法，从原始特征图中提取这些坐标对应的特征；最后，GridS将提取的特征传递给后续的VLA模型进行处理。

关键创新：GridS的关键创新在于其可微的网格采样机制。通过可微的设计，GridS可以与整个VLA模型进行端到端的训练，从而学习到任务相关的、最优的显著坐标。与传统的token剪枝方法不同，GridS不是直接删除token，而是通过重采样的方式，保留了关键位置的信息，避免了信息的突变和丢失。

关键设计：GridS使用一个小型神经网络来预测显著坐标。该网络的输入是视觉编码器的输出特征图，输出是K个坐标。为了保证可微性，论文使用Gumbel-Softmax技巧对坐标进行离散化。在提取特征时，论文使用双线性插值方法，从原始特征图中提取显著坐标对应的特征。损失函数包括一个任务相关的损失函数和一个正则化损失函数，用于鼓励显著坐标的稀疏性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GridS在LIBERO基准测试和真实机器人平台上，实现了76%的FLOPs减少，而成功率没有下降。这验证了GridS在大幅降低计算成本的同时，能够有效保留关键几何信息的能力。此外，GridS还实现了迄今为止报告的最低可行视觉token数量。

🎯 应用场景

该研究成果可广泛应用于机器人操作、自动驾驶等领域。通过降低VLA模型的计算成本，GridS使得这些模型能够部署在资源受限的平台上，从而实现更高效、更实时的决策和控制。此外，该方法还可以应用于其他视觉相关的任务，例如图像分类、目标检测等。

📄 摘要（原文）

Vision-Language-Action (VLA) models have shown remarkable promise in robotics manipulation, yet their high computational cost hinders real-time deployment. Existing token pruning methods suffer from a fundamental trade-off: aggressive compression using pruning inevitably discards critical geometric details like contact points, leading to severe performance degradation. This forces a compromise, limiting the achievable compression rate and thus the potential speedup. We argue that breaking this trade-off requires rethinking compression as a geometry-aware, continuous token resampling in the vision encoder. To this end, we propose the Differentiable Grid Sampler (GridS), a plug-and-play module that performs task-aware, continuous resampling of visual tokens in VLA. By adaptively predicting a minimal set of salient coordinates and extracting features via differentiable interpolation, GridS preserves essential spatial information while achieving drastic compression (with fewer than 10% original visual tokens). Experiments on both LIBERO benchmark and a real robotic platform demonstrate that validating the lowest feasible visual token count reported to date, GridS achieves a 76% reduction in FLOPs with no degradation in the success rate. The code is available at https://github.com/Fediory/Grid-Sampler.

See What Matters: Differentiable Grid Sample Pruning for Generalizable Vision-Language-Action Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理