Realtime-VLA FLASH: Speculative Inference Framework for Diffusion-based VLAs

📄 arXiv: 2605.13778v1 📥 PDF

作者: Jiahui Niu, Kefan Gu, Yucheng Zhao, Shengwen Liang, Tiancai Wang, Xing Hu, Ying Wang, Huawei Li

分类: cs.RO, cs.CV

发布日期: 2026-05-13


💡 一句话要点

Realtime-VLA FLASH:用于扩散VLA的推测推理框架,加速实时部署

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 视觉-语言-动作模型 扩散模型 实时推理 推测执行

📋 核心要点

  1. 基于扩散模型的VLA在具身智能中表现出色,但完整推理的高延迟阻碍了实时应用。
  2. FLASH框架利用轻量级草稿模型进行快速推测,主模型并行验证,必要时回退到完整推理。
  3. 实验表明,FLASH在LIBERO上显著降低了推理延迟(3.04倍加速),并在实际分拣任务中有效。

📝 摘要(中文)

基于扩散的视觉-语言-动作模型(dVLA)在具身智能领域展现出巨大潜力,但其完整的推理过程带来的高延迟严重限制了实时部署。我们提出了Realtime-VLA FLASH,一个推测推理框架,通过引入轻量级的草稿模型,并利用主模型的动作专家进行并行验证,以及在必要时回退到完整推理流程的阶段感知回退机制,消除了大部分完整推理调用。这种设计实现了低延迟、高频率的重规划,同时不牺牲可靠性。在LIBERO上的实验表明,FLASH通过将许多58.0毫秒的完整推理轮次替换为快至7.8毫秒的推测轮次,在很大程度上保持了任务性能,并将任务级别的平均推理延迟降低到19.1毫秒(加速3.04倍)。我们还在真实的传送带分拣任务中展示了其有效性,突出了其对延迟敏感的具身任务的实际影响。

🔬 方法详解

问题定义:论文旨在解决基于扩散模型的视觉-语言-动作模型(dVLA)在实时具身智能任务中部署时面临的高延迟问题。现有方法依赖于完整的扩散模型推理,计算成本高昂,无法满足实时性要求,限制了其在实际场景中的应用。

核心思路:论文的核心思路是引入推测推理,即使用一个轻量级的“草稿模型”快速生成动作预测,然后使用主模型(即完整的扩散模型)并行验证这些预测。如果验证通过,则直接采用草稿模型的输出,避免了耗时的完整推理。如果验证失败,则回退到完整的推理流程。

技术框架:Realtime-VLA FLASH框架包含以下主要模块:1) 草稿模型:一个轻量级的模型,用于快速生成动作预测。2) 动作专家:主模型的一部分,用于并行验证草稿模型的预测。3) 阶段感知回退机制:根据当前任务阶段动态调整回退策略,以平衡延迟和性能。整体流程是:输入视觉和语言信息,草稿模型生成动作,动作专家并行验证,根据验证结果选择采用草稿模型输出或进行完整推理,最终执行动作。

关键创新:最重要的技术创新点在于推测推理与并行验证的结合,以及阶段感知的回退机制。与现有方法相比,FLASH通过草稿模型大幅减少了完整推理的调用次数,从而降低了延迟。并行验证保证了动作的可靠性,而阶段感知回退机制则进一步优化了延迟和性能之间的平衡。

关键设计:草稿模型可以使用较小的网络结构或蒸馏训练得到,以保证其推理速度。动作专家通常是主模型中已有的模块,可以直接利用。阶段感知回退机制可以根据任务的难易程度或关键程度,动态调整回退的阈值或频率。具体的损失函数和网络结构选择取决于具体的VLA模型和任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Realtime-VLA FLASH在LIBERO数据集上实现了显著的加速,将平均推理延迟降低到19.1毫秒,相比完整推理的58.0毫秒,加速了3.04倍,同时保持了任务性能。此外,该方法在真实的传送带分拣任务中也表现出良好的效果,验证了其在实际场景中的应用潜力。

🎯 应用场景

该研究成果可广泛应用于需要实时响应的具身智能任务中,例如机器人操作、自动驾驶、智能制造等。在机器人操作中,可以使机器人更快地对环境变化做出反应,提高操作效率和安全性。在自动驾驶中,可以降低决策延迟,提升驾驶安全性。在智能制造中,可以实现更快速、更灵活的生产线控制。

📄 摘要(原文)

Diffusion-based vision-language-action models (dVLAs) are promising for embodied intelligence but are fundamentally limited in real-time deployment by the high latency of full inference. We propose Realtime-VLA FLASH, a speculative inference framework that eliminates most full inference calls during replanning by introducing a lightweight draft model with parallel verification via the main model's Action Expert and a phase-aware fallback mechanism that reverts to the full inference pipeline when needed. This design enables low-latency, high-frequency replanning without sacrificing reliability. Experiments show that on LIBERO, FLASH largely preserves task performance by replacing many 58.0 ms full-inference rounds with speculative rounds as fast as 7.8 ms, lowering task-level average inference latency to 19.1 ms (3.04x speedup). We additionally demonstrate effectiveness on real-world conveyor-belt sorting, highlighting its practical impact for latency-critical embodied tasks.