Realtime-VLA FLASH: Speculative Inference Framework for Diffusion-based VLAs

作者: Jiahui Niu, Kefan Gu, Yucheng Zhao, Shengwen Liang, Tiancai Wang, Xing Hu, Ying Wang, Huawei Li

分类: cs.RO, cs.CV

发布日期: 2026-05-13

💡 一句话要点

Realtime-VLA FLASH：用于扩散VLA的推测推理框架，加速实时部署

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 视觉-语言-动作模型 扩散模型 实时推理 推测执行

📋 核心要点

基于扩散模型的VLA在具身智能中表现出色，但完整推理的高延迟阻碍了实时应用。
FLASH框架利用轻量级草稿模型进行快速推测，主模型并行验证，必要时回退到完整推理。
实验表明，FLASH在LIBERO上显著降低了推理延迟（3.04倍加速），并在实际分拣任务中有效。

📝 摘要（中文）

基于扩散的视觉-语言-动作模型(dVLA)在具身智能领域展现出巨大潜力，但其完整的推理过程带来的高延迟严重限制了实时部署。我们提出了Realtime-VLA FLASH，一个推测推理框架，通过引入轻量级的草稿模型，并利用主模型的动作专家进行并行验证，以及在必要时回退到完整推理流程的阶段感知回退机制，消除了大部分完整推理调用。这种设计实现了低延迟、高频率的重规划，同时不牺牲可靠性。在LIBERO上的实验表明，FLASH通过将许多58.0毫秒的完整推理轮次替换为快至7.8毫秒的推测轮次，在很大程度上保持了任务性能，并将任务级别的平均推理延迟降低到19.1毫秒（加速3.04倍）。我们还在真实的传送带分拣任务中展示了其有效性，突出了其对延迟敏感的具身任务的实际影响。

🔬 方法详解

问题定义：论文旨在解决基于扩散模型的视觉-语言-动作模型（dVLA）在实时具身智能任务中部署时面临的高延迟问题。现有方法依赖于完整的扩散模型推理，计算成本高昂，无法满足实时性要求，限制了其在实际场景中的应用。

核心思路：论文的核心思路是引入推测推理，即使用一个轻量级的“草稿模型”快速生成动作预测，然后使用主模型（即完整的扩散模型）并行验证这些预测。如果验证通过，则直接采用草稿模型的输出，避免了耗时的完整推理。如果验证失败，则回退到完整的推理流程。

技术框架：Realtime-VLA FLASH框架包含以下主要模块：1) 草稿模型：一个轻量级的模型，用于快速生成动作预测。2) 动作专家：主模型的一部分，用于并行验证草稿模型的预测。3) 阶段感知回退机制：根据当前任务阶段动态调整回退策略，以平衡延迟和性能。整体流程是：输入视觉和语言信息，草稿模型生成动作，动作专家并行验证，根据验证结果选择采用草稿模型输出或进行完整推理，最终执行动作。

关键创新：最重要的技术创新点在于推测推理与并行验证的结合，以及阶段感知的回退机制。与现有方法相比，FLASH通过草稿模型大幅减少了完整推理的调用次数，从而降低了延迟。并行验证保证了动作的可靠性，而阶段感知回退机制则进一步优化了延迟和性能之间的平衡。

关键设计：草稿模型可以使用较小的网络结构或蒸馏训练得到，以保证其推理速度。动作专家通常是主模型中已有的模块，可以直接利用。阶段感知回退机制可以根据任务的难易程度或关键程度，动态调整回退的阈值或频率。具体的损失函数和网络结构选择取决于具体的VLA模型和任务。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Realtime-VLA FLASH在LIBERO数据集上实现了显著的加速，将平均推理延迟降低到19.1毫秒，相比完整推理的58.0毫秒，加速了3.04倍，同时保持了任务性能。此外，该方法在真实的传送带分拣任务中也表现出良好的效果，验证了其在实际场景中的应用潜力。

🎯 应用场景

该研究成果可广泛应用于需要实时响应的具身智能任务中，例如机器人操作、自动驾驶、智能制造等。在机器人操作中，可以使机器人更快地对环境变化做出反应，提高操作效率和安全性。在自动驾驶中，可以降低决策延迟，提升驾驶安全性。在智能制造中，可以实现更快速、更灵活的生产线控制。

📄 摘要（原文）

Diffusion-based vision-language-action models (dVLAs) are promising for embodied intelligence but are fundamentally limited in real-time deployment by the high latency of full inference. We propose Realtime-VLA FLASH, a speculative inference framework that eliminates most full inference calls during replanning by introducing a lightweight draft model with parallel verification via the main model's Action Expert and a phase-aware fallback mechanism that reverts to the full inference pipeline when needed. This design enables low-latency, high-frequency replanning without sacrificing reliability. Experiments show that on LIBERO, FLASH largely preserves task performance by replacing many 58.0 ms full-inference rounds with speculative rounds as fast as 7.8 ms, lowering task-level average inference latency to 19.1 ms (3.04x speedup). We additionally demonstrate effectiveness on real-world conveyor-belt sorting, highlighting its practical impact for latency-critical embodied tasks.

Realtime-VLA FLASH: Speculative Inference Framework for Diffusion-based VLAs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理