VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting

作者: Juyi Lin, Amir Taherin, Arash Akbari, Arman Akbari, Lei Lu, Guangyu Chen, Taskin Padir, Xiaomeng Yang, Weiwei Chen, Yiqian Li, Xue Lin, David Kaeli, Pu Zhao, Yanzhi Wang

分类: cs.CV, cs.AI, cs.RO

发布日期: 2025-07-07 (更新: 2025-10-02)

🔗 代码/项目: GITHUB

💡 一句话要点

VOTE：基于轨迹集成投票的视觉-语言-动作优化，提升机器人操作效率

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人操作 轨迹优化 集成学习 边缘计算

📋 核心要点

现有VLA模型生成大量tokens，导致推理延迟高、训练成本增加，且对生成动作的利用不充分。
论文提出一种训练框架，通过减少动作tokens生成数量并结合投票集成策略，优化VLA模型的推理效率和性能。
实验结果表明，该方法显著提高了成功率，并在边缘平台上实现了比OpenVLA快39倍的推理速度。

📝 摘要（中文）

近年来，大规模视觉-语言-动作（VLA）模型在自然语言引导的机器人操作任务中表现出卓越的性能。然而，当前的VLA模型存在两个缺点：（i）生成大量tokens导致高推理延迟和增加训练成本；（ii）对生成动作的利用不足，导致潜在的性能损失。为了解决这些问题，我们开发了一个训练框架，用于微调VLA模型，使其能够以高并行性生成显著减少的动作tokens，从而有效地降低推理延迟和训练成本。此外，我们引入了一种推理优化技术，采用一种新颖的基于投票的集成策略来组合当前和先前的动作预测，从而提高生成动作的利用率和整体性能。我们的结果表明，与最先进的VLA模型相比，我们实现了卓越的性能，获得了显著更高的成功率，并且在边缘平台上实现了比OpenVLA快39倍的推理速度，吞吐量达到46 Hz，证明了实际的可部署性。代码可在https://github.com/LukeLIN-web/VOTE 获取。

🔬 方法详解

问题定义：现有视觉-语言-动作（VLA）模型在机器人操作任务中面临推理延迟高和训练成本高的问题，这是由于模型需要生成大量的动作tokens。此外，模型对已生成的动作序列的利用率不高，导致性能存在提升空间。

核心思路：论文的核心思路是通过减少VLA模型生成的动作tokens数量来降低推理延迟和训练成本。同时，通过一种基于投票的集成策略，将当前和先前的动作预测进行组合，从而更充分地利用已生成的动作信息，提升整体性能。

技术框架：该方法包含一个训练框架和一个推理优化技术。训练框架用于微调VLA模型，使其能够生成更少的动作tokens。推理优化技术则采用基于投票的集成策略，将当前和之前的动作预测进行融合。整体流程包括：(1) 使用训练框架微调VLA模型；(2) 在推理阶段，模型生成动作序列；(3) 使用投票集成策略融合当前和之前的动作预测；(4) 执行最终的动作。

关键创新：论文的关键创新在于两个方面：一是通过训练框架减少了VLA模型生成的动作tokens数量，从而降低了推理延迟和训练成本；二是提出了一种基于投票的集成策略，更有效地利用了已生成的动作信息，提升了整体性能。与现有方法相比，该方法在保证甚至提升性能的同时，显著降低了推理延迟。

关键设计：关于训练框架的具体设计细节，论文中没有详细说明，需要参考代码。关于投票集成策略，具体实现细节也需要在代码中查看。损失函数和网络结构等细节也未在摘要中提及，需要进一步阅读论文正文。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在机器人操作任务中取得了显著的性能提升，成功率高于现有VLA模型，并且在边缘平台上实现了比OpenVLA快39倍的推理速度，吞吐量达到46 Hz，证明了该方法在实际部署中的可行性。

🎯 应用场景

该研究成果可广泛应用于机器人操作领域，例如工业自动化、家庭服务机器人、医疗机器人等。通过降低推理延迟和提高操作成功率，可以使机器人更高效、更可靠地完成各种任务，具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要（原文）

Recent large-scale Vision Language Action (VLA) models have shown superior performance in robotic manipulation tasks guided by natural language. However, current VLA models suffer from two drawbacks: (i) generation of massive tokens leading to high inference latency and increased training cost, and (ii) insufficient utilization of generated actions resulting in potential performance loss. To address these issues, we develop a training framework to finetune VLA models for generating significantly fewer action tokens with high parallelism, effectively reducing inference latency and training cost. Furthermore, we introduce an inference optimization technique with a novel voting-based ensemble strategy to combine current and previous action predictions, improving the utilization of generated actions and overall performance. Our results demonstrate that we achieve superior performance compared with state-of-the-art VLA models, achieving significantly higher success rates and 39$\times$ faster inference than OpenVLA with 46 Hz throughput on edge platforms, demonstrating practical deployability. The code is available at https://github.com/LukeLIN-web/VOTE.

VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理