Let It Be Simple: One-Step Action Generation for Vision-Language-Action Models

📄 arXiv: 2606.05737v1 📥 PDF

作者: Yitong Chen, Shiduo Zhang, Jingjing Gong, Xipeng Qiu

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2026-06-04

备注: 20 pages, 10 figures


💡 一句话要点

提出一种简单的一步动作生成方法以优化视觉-语言-动作模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 扩散模型 动作生成 高噪声偏置 机器人控制

📋 核心要点

  1. 现有的扩散模型在动作生成上依赖于迭代去噪,导致效率低下和复杂性高。
  2. 本文提出了一种简单的一步动作生成方法,通过偏向高噪声状态来优化训练过程,避免了复杂的图像合成技术。
  3. 实验结果表明,使用高噪声偏置调度训练的一步策略在多个基准上表现优异,甚至超过了传统的十步策略。

📝 摘要(中文)

基于扩散的视觉-语言-动作(VLA)模型通常采用图像生成的视角:通过迭代去噪生成动作。本文认为,VLA动作生成具有不同的条件-目标结构:策略依赖于丰富的观察、语言和状态,但仅预测紧凑的低维动作块。在这种不对称性下,强的一步动作生成不必依赖于为图像合成开发的高级一步方法。我们保持标准的速度预测,不添加教师模型、蒸馏阶段或辅助目标;在主要方案中,我们简单地将训练时间分布偏向高噪声状态。我们首先在受控的MNIST网格到序列任务中隔离效果,然后通过广泛的机器人策略实验进行测试。在标准LIBERO、LIBERO-Plus和LIBERO-Pro上,使用高噪声偏置调度训练的一步策略通常与在相同方案下的十步解码相匹配,并且在标准LIBERO上可以超越使用均匀时间分布训练的十步策略。基于1.4B VLM模型和30M动作头的一步解码在LIBERO-Long上达到了95.6%的准确率。这些结果表明,强的一步VLA动作生成可以通过标准扩散训练实现,而无需引入为图像生成开发的完整几步扩散机制。

🔬 方法详解

问题定义:本文旨在解决现有扩散模型在视觉-语言-动作生成中的效率低下问题,现有方法依赖于复杂的迭代去噪过程,导致生成速度慢且计算资源消耗高。

核心思路:论文提出了一种新的训练策略,通过将训练时间分布偏向高噪声状态,来实现高效的一步动作生成。这种方法利用了VLA模型的条件-目标结构,强调了动作生成的低维特性。

技术框架:整体架构包括标准的速度预测模块,训练过程中不引入教师模型、蒸馏阶段或辅助目标。主要流程为:数据准备→高噪声状态偏置训练→动作生成。

关键创新:最重要的技术创新在于通过高噪声偏置调度实现了一步动作生成,避免了传统方法中复杂的多步解码过程。这一创新使得模型在生成效率和准确性上都有显著提升。

关键设计:在训练过程中,模型的参数设置和损失函数保持标准,重点在于训练时间分布的调整,以确保模型能够在高噪声状态下有效学习动作生成的特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,使用高噪声偏置调度训练的一步策略在标准LIBERO上达到了95.6%的准确率,超越了使用均匀时间分布训练的十步策略。这表明新方法在动作生成效率和性能上具有显著优势。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动化系统和人机交互等。通过优化视觉-语言-动作模型的生成效率,可以在实际应用中实现更快速、更准确的动作执行,提升智能系统的响应能力和灵活性。

📄 摘要(原文)

Diffusion-based vision-language-action (VLA) models often inherit the image-generation view: actions are generated by iterative denoising. We argue that VLA action generation has a different condition-target structure: the policy is conditioned on rich observations, language, and state, but predicts only a compact, low-dimensional action chunk. Under this asymmetry, strong one-step action generation should not necessarily require the advanced one-step methods developed for image synthesis. We keep standard velocity prediction and add no teacher model, distillation stage, or auxiliary objective; in our main recipe, we simply bias the training time distribution toward high-noise states. We first isolate the effect in a controlled MNIST grid-to-sequence task, then test it with extensive robot-policy experiments. Across standard LIBERO, LIBERO-Plus, and LIBERO-Pro, one-step policies trained with high-noise biased schedules generally match ten-step decoding under the same recipe, and on standard LIBERO can exceed ten-step policies trained with a uniform time distribution. A real-robot bimanual YAM RSS evaluation gives a small-sample cross-architecture check of the same sampler trend. On a 1.4B VLM model with a 30M action head, one-step decoding reaches 95.6\% on LIBERO-Long. These results show that strong one-step VLA action generation can emerge from standard diffusion training, without importing the full few-step diffusion machinery developed for image generation.