See What Matters: Differentiable Grid Sample Pruning for Generalizable Vision-Language-Action Model
作者: Yixu Feng, Zinan Zhao, Yanxiang Ma, Chenghao Xia, Chengbin Du, Yunke Wang, Chang Xu
分类: cs.RO, cs.CV
发布日期: 2026-05-12
期刊: Proceedings of the Forty-third International Conference on Machine Learning, 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出可微网格采样器GridS,用于通用视觉-语言-动作模型中的几何感知型token剪枝。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作模型 机器人操作 token剪枝 可微采样 几何感知
📋 核心要点
- VLA模型计算成本高,现有token剪枝方法在压缩率和几何信息保留之间存在trade-off。
- 提出可微网格采样器GridS,通过任务感知的连续token重采样,保留关键空间信息并实现高压缩率。
- 实验表明,GridS在LIBERO和真实机器人平台上实现了76%的FLOPs减少,且成功率没有下降。
📝 摘要(中文)
视觉-语言-动作(VLA)模型在机器人操作方面展现了巨大的潜力,但其高昂的计算成本阻碍了实时部署。现有的token剪枝方法面临着根本性的权衡:激进的剪枝不可避免地会丢弃关键的几何细节,如接触点,从而导致严重的性能下降。这迫使人们做出妥协,限制了可实现的压缩率,从而限制了潜在的加速。我们认为,打破这种权衡需要将压缩重新思考为视觉编码器中一种几何感知的、连续的token重采样。为此,我们提出了可微网格采样器(GridS),这是一个即插即用的模块,用于在VLA中执行任务感知的、连续的视觉token重采样。通过自适应地预测最小的显著坐标集,并通过可微插值提取特征,GridS在实现大幅压缩(少于10%的原始视觉token)的同时,保留了必要的空间信息。在LIBERO基准测试和真实机器人平台上的实验表明,GridS验证了迄今为止报告的最低可行视觉token数量,实现了76%的FLOPs减少,而成功率没有下降。代码可在https://github.com/Fediory/Grid-Sampler获得。
🔬 方法详解
问题定义:VLA模型在机器人操作中应用受限于其高计算成本。现有的token剪枝方法为了降低计算量,会不可避免地丢弃重要的几何信息(例如接触点),导致性能显著下降。因此,如何在保证性能的前提下,有效压缩视觉token数量,是VLA模型部署的关键问题。
核心思路:论文的核心思路是将视觉token的压缩问题转化为一个几何感知的、连续的token重采样过程。通过学习哪些位置的视觉信息对于完成任务至关重要,并只保留这些位置的信息,从而在大幅降低计算量的同时,尽可能地保留关键的几何信息。
技术框架:GridS是一个即插即用的模块,可以嵌入到现有的VLA模型的视觉编码器中。其主要流程包括:首先,GridS接收视觉编码器的输出特征图;然后,GridS预测一组显著坐标,这些坐标代表了图像中最重要的位置;接着,GridS使用可微插值方法,从原始特征图中提取这些坐标对应的特征;最后,GridS将提取的特征传递给后续的VLA模型进行处理。
关键创新:GridS的关键创新在于其可微的网格采样机制。通过可微的设计,GridS可以与整个VLA模型进行端到端的训练,从而学习到任务相关的、最优的显著坐标。与传统的token剪枝方法不同,GridS不是直接删除token,而是通过重采样的方式,保留了关键位置的信息,避免了信息的突变和丢失。
关键设计:GridS使用一个小型神经网络来预测显著坐标。该网络的输入是视觉编码器的输出特征图,输出是K个坐标。为了保证可微性,论文使用Gumbel-Softmax技巧对坐标进行离散化。在提取特征时,论文使用双线性插值方法,从原始特征图中提取显著坐标对应的特征。损失函数包括一个任务相关的损失函数和一个正则化损失函数,用于鼓励显著坐标的稀疏性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GridS在LIBERO基准测试和真实机器人平台上,实现了76%的FLOPs减少,而成功率没有下降。这验证了GridS在大幅降低计算成本的同时,能够有效保留关键几何信息的能力。此外,GridS还实现了迄今为止报告的最低可行视觉token数量。
🎯 应用场景
该研究成果可广泛应用于机器人操作、自动驾驶等领域。通过降低VLA模型的计算成本,GridS使得这些模型能够部署在资源受限的平台上,从而实现更高效、更实时的决策和控制。此外,该方法还可以应用于其他视觉相关的任务,例如图像分类、目标检测等。
📄 摘要(原文)
Vision-Language-Action (VLA) models have shown remarkable promise in robotics manipulation, yet their high computational cost hinders real-time deployment. Existing token pruning methods suffer from a fundamental trade-off: aggressive compression using pruning inevitably discards critical geometric details like contact points, leading to severe performance degradation. This forces a compromise, limiting the achievable compression rate and thus the potential speedup. We argue that breaking this trade-off requires rethinking compression as a geometry-aware, continuous token resampling in the vision encoder. To this end, we propose the Differentiable Grid Sampler (GridS), a plug-and-play module that performs task-aware, continuous resampling of visual tokens in VLA. By adaptively predicting a minimal set of salient coordinates and extracting features via differentiable interpolation, GridS preserves essential spatial information while achieving drastic compression (with fewer than 10% original visual tokens). Experiments on both LIBERO benchmark and a real robotic platform demonstrate that validating the lowest feasible visual token count reported to date, GridS achieves a 76% reduction in FLOPs with no degradation in the success rate. The code is available at https://github.com/Fediory/Grid-Sampler.