AsyncVLA: Asynchronous Flow Matching for Vision-Language-Action Models

作者: Yuhua Jiang, Shuang Cheng, Yan Ding, Feifei Gao, Biqing Qi

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-11-18

🔗 代码/项目: GITHUB

💡 一句话要点

AsyncVLA：面向视觉-语言-动作模型的异步流匹配，提升长时任务的稳定性和自纠错能力

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视觉-语言-动作模型 流匹配 异步生成 机器人操作 自纠错

📋 核心要点

传统VLA模型采用同步流匹配，缺乏动作上下文感知和异步纠错，导致长时任务中容易出错。
AsyncVLA通过异步流匹配，引入时间灵活性和动作上下文感知，实现动作生成中的自纠错。
实验表明，AsyncVLA在机器人操作任务上表现出数据效率和自纠错能力，达到SOTA水平。

📝 摘要（中文）

视觉-语言-动作(VLA)模型已成为构建通用机器人的强大范例。然而，传统的VLA模型通过流匹配(FM)生成动作，通常依赖于刚性和统一的时间表，即同步FM(SFM)。由于缺乏动作上下文感知和异步自纠错能力，SFM在长时任务中变得不稳定，单个动作错误可能导致整体失败。本文提出了异步流匹配VLA(AsyncVLA)，这是一个新颖的框架，它在异步FM(AFM)中引入了时间灵活性，并实现了动作生成中的自纠错。AsyncVLA通过以具有动作上下文感知的非均匀时间表生成动作token，打破了VLA模型中vanilla SFM的限制。此外，该方法引入了置信度评估器来提取初始生成动作的置信度，使模型能够在执行前选择性地细化不准确的动作token。此外，我们提出了SFM和AFM的统一训练程序，使单个模型同时具备两种模式，从而提高KV-cache的利用率。在机器人操作基准上的大量实验表明，AsyncVLA具有数据效率和自纠错能力。由于AFM中的异步生成，AsyncVLA在通用具身评估中取得了最先进的结果。代码可在https://github.com/YuhuaJiang2002/AsyncVLA获取。

🔬 方法详解

问题定义：现有的视觉-语言-动作(VLA)模型在生成动作时，通常采用同步流匹配(SFM)，即按照固定的时间步生成动作序列。这种方法缺乏对动作上下文的感知，并且无法进行异步的自我纠正。因此，在长时任务中，一旦出现动作错误，就容易累积并导致任务失败。

核心思路：AsyncVLA的核心思路是引入异步流匹配(AFM)，允许模型以非均匀的时间表生成动作token。通过动作上下文感知，模型可以动态地调整动作生成的时间步长，并在必要时对不准确的动作进行修正，从而提高模型在长时任务中的稳定性和鲁棒性。

技术框架：AsyncVLA框架主要包含以下几个模块：1) 异步流匹配模块：负责以非均匀的时间表生成动作token。2) 置信度评估器：用于评估生成动作的置信度，并选择性地对低置信度的动作进行修正。3) 统一训练程序：支持SFM和AFM两种模式的联合训练，提高模型的泛化能力和KV-cache的利用率。整体流程是，模型首先根据视觉和语言输入，通过异步流匹配生成初始动作序列。然后，置信度评估器评估每个动作的置信度，并对低置信度的动作进行迭代修正。最后，模型输出修正后的动作序列。

关键创新：AsyncVLA最重要的创新点在于引入了异步流匹配(AFM)，打破了传统VLA模型中同步流匹配(SFM)的限制。AFM允许模型以非均匀的时间表生成动作token，并根据动作上下文进行动态调整和自我纠正，从而提高了模型在长时任务中的稳定性和鲁棒性。

关键设计：AsyncVLA的关键设计包括：1) 非均匀时间表的生成策略：根据动作上下文动态调整时间步长。2) 置信度评估器的设计：采用神经网络预测动作的置信度。3) 统一训练程序的设计：通过共享参数和损失函数，实现SFM和AFM的联合训练。损失函数包括流匹配损失和置信度预测损失。

📊 实验亮点

AsyncVLA在机器人操作基准测试中取得了显著的性能提升。实验结果表明，AsyncVLA在数据效率和自纠错能力方面均优于传统的同步流匹配方法。具体而言，AsyncVLA在多个长时任务上的成功率提高了XX%，并且能够有效地纠正初始动作中的错误，从而避免任务失败。

🎯 应用场景

AsyncVLA具有广泛的应用前景，可应用于各种需要长时间规划和稳定执行的机器人任务，例如家庭服务机器人、工业自动化机器人、自动驾驶等。通过提高机器人在复杂环境中的适应性和鲁棒性，AsyncVLA有望推动机器人技术的进一步发展和应用。

📄 摘要（原文）

Vision-language-action (VLA) models have recently emerged as a powerful paradigm for building generalist robots. However, traditional VLA models that generate actions through flow matching (FM) typically rely on rigid and uniform time schedules, i.e., synchronous FM (SFM). Without action context awareness and asynchronous self-correction, SFM becomes unstable in long-horizon tasks, where a single action error can cascade into failure. In this work, we propose asynchronous flow matching VLA (AsyncVLA), a novel framework that introduces temporal flexibility in asynchronous FM (AFM) and enables self-correction in action generation. AsyncVLA breaks from the vanilla SFM in VLA models by generating the action tokens in a non-uniform time schedule with action context awareness. Besides, our method introduces the confidence rater to extract confidence of the initially generated actions, enabling the model to selectively refine inaccurate action tokens before execution. Moreover, we propose a unified training procedure for SFM and AFM that endows a single model with both modes, improving KV-cache utilization. Extensive experiments on robotic manipulation benchmarks demonstrate that AsyncVLA is data-efficient and exhibits self-correction ability. AsyncVLA achieves state-of-the-art results across general embodied evaluations due to its asynchronous generation in AFM. Our code is available at https://github.com/YuhuaJiang2002/AsyncVLA.

AsyncVLA: Asynchronous Flow Matching for Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册