VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers

作者: Yating Wang, Haoyi Zhu, Mingyu Liu, Jiange Yang, Hao-Shu Fang, Tong He

分类: cs.RO, cs.CV

发布日期: 2025-07-01

备注: Accepted by ICCV 2025

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

VQ-VLA：通过扩展向量量化动作标记器提升视觉-语言-动作模型

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 向量量化 动作标记器 机器人控制 长时程规划 具身智能 合成数据 轨迹数据

📋 核心要点

现有视觉-语言-动作模型在处理复杂动作时，面临推理速度慢、动作输出不连贯等问题。
论文提出基于大规模动作轨迹数据集训练的向量量化动作标记器，以捕获丰富的时空动态。
实验表明，该方法在模拟和真实机器人任务中均表现出色，长时程任务成功率提升高达30%。

📝 摘要（中文）

本文提出了一种基于向量量化的动作标记器，该标记器构建于迄今为止最大规模的动作轨迹数据集之上，数据量是先前方法的100多倍。这种大规模数据集使我们的标记器能够捕获丰富的时空动态，从而产生一个不仅加速推理，而且生成更平滑、更连贯的动作输出的模型。经过训练后，该标记器可以零样本方式无缝地适应各种下游任务，从短视反应行为到长时程规划。我们工作的一个关键发现是，合成和真实动作轨迹之间的领域差距很小，这使我们能够在不影响真实世界性能的情况下，有效地利用大量合成数据进行训练。为了验证我们的方法，我们在模拟环境和真实机器人平台上进行了广泛的实验。结果表明，随着合成轨迹数据量的增加，我们的标记器在下游任务上的性能显着提高——最值得注意的是，在长时程场景中的两个真实世界任务中，成功率提高了30%。这些发现突出了我们的动作标记器作为实时具身智能系统的强大且可扩展的解决方案的潜力，为在各种应用领域中更高效、更可靠的机器人控制铺平了道路。

🔬 方法详解

问题定义：现有视觉-语言-动作模型在生成动作时，通常面临计算复杂度高、推理速度慢的问题。此外，由于缺乏足够的数据，模型难以生成平滑和连贯的动作序列，尤其是在长时程规划任务中。现有方法难以有效利用大规模合成数据，因为合成数据与真实数据之间存在领域差异。

核心思路：论文的核心思路是利用大规模的动作轨迹数据集，训练一个向量量化的动作标记器。该标记器可以将连续的动作空间离散化为一系列离散的动作token，从而降低计算复杂度，加速推理过程。通过在大量合成数据上进行预训练，可以学习到丰富的时空动态，并减小合成数据与真实数据之间的领域差距。这样，模型就可以生成更平滑、更连贯的动作序列。

技术框架：该方法主要包含两个阶段：1) 动作标记器训练阶段：使用大规模的动作轨迹数据集（包括合成数据和少量真实数据）训练一个向量量化的动作标记器。该标记器将连续的动作空间映射到离散的token空间。2) 下游任务适应阶段：将训练好的动作标记器应用于各种下游任务，例如短视反应行为和长时程规划。在下游任务中，模型首先将视觉和语言输入编码为特征向量，然后使用这些特征向量生成离散的动作token序列，最后将这些token解码为连续的动作。

关键创新：该方法最重要的技术创新点在于利用向量量化技术构建了一个可扩展的动作标记器，并证明了大规模合成数据在视觉-语言-动作模型训练中的有效性。与现有方法相比，该方法能够更有效地利用大规模数据，并生成更平滑、更连贯的动作序列。此外，该方法还具有良好的可扩展性，可以轻松地应用于各种下游任务。

关键设计：动作标记器采用向量量化（VQ）技术，将连续的动作空间离散化为一系列离散的token。具体来说，模型首先使用一个编码器将连续的动作向量映射到一个潜在空间，然后使用一个码本将潜在空间中的向量量化为离散的token。码本中的每个token都对应于一个特定的动作模式。损失函数包括重构损失和量化损失，用于保证重构的动作与原始动作尽可能接近，并鼓励码本中的token被均匀使用。网络结构使用了Transformer架构，以捕获动作序列中的时序依赖关系。

🖼️ 关键图片

📊 实验亮点

实验结果表明，随着合成轨迹数据量的增加，该方法在下游任务上的性能显着提高。在长时程场景中的两个真实世界任务中，成功率提高了高达30%。此外，该方法还能够生成更平滑、更连贯的动作序列，提高了机器人的工作效率和安全性。与现有方法相比，该方法具有更强的泛化能力和鲁棒性。

🎯 应用场景

该研究成果可广泛应用于机器人控制、自动驾驶、虚拟现实等领域。例如，在机器人控制中，该方法可以用于生成更平滑、更自然的机器人动作，提高机器人的工作效率和安全性。在自动驾驶中，该方法可以用于预测车辆的未来行为，提高自动驾驶系统的安全性和可靠性。在虚拟现实中，该方法可以用于生成更逼真的虚拟角色动作，提高用户的沉浸感。

📄 摘要（原文）

In this paper, we introduce an innovative vector quantization based action tokenizer built upon the largest-scale action trajectory dataset to date, leveraging over 100 times more data than previous approaches. This extensive dataset enables our tokenizer to capture rich spatiotemporal dynamics, resulting in a model that not only accelerates inference but also generates smoother and more coherent action outputs. Once trained, the tokenizer can be seamlessly adapted to a wide range of downstream tasks in a zero-shot manner, from short-horizon reactive behaviors to long-horizon planning. A key finding of our work is that the domain gap between synthetic and real action trajectories is marginal, allowing us to effectively utilize a vast amount of synthetic data during training without compromising real-world performance. To validate our approach, we conducted extensive experiments in both simulated environments and on real robotic platforms. The results demonstrate that as the volume of synthetic trajectory data increases, the performance of our tokenizer on downstream tasks improves significantly-most notably, achieving up to a 30% higher success rate on two real-world tasks in long-horizon scenarios. These findings highlight the potential of our action tokenizer as a robust and scalable solution for real-time embodied intelligence systems, paving the way for more efficient and reliable robotic control in diverse application domains.Project website: https://xiaoxiao0406.github.io/vqvla.github.io

VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理