StreamingVLA: Streaming Vision-Language-Action Model with Action Flow Matching and Adaptive Early Observation
作者: Yiran Shi, Dongqi Guo, Tianchen Zhao, Feng Gao, Liangzhi Shi, Chao Yu, ZhiJian Mo, Qihua Xiao, XiaoShuai Peng, Qingmin Liao, Yu Wang
分类: cs.RO, cs.CV
发布日期: 2026-03-30
💡 一句话要点
提出StreamingVLA,通过异步并行化VLA各阶段,加速资源受限平台的视觉-语言-动作模型推理。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 流式处理 异步并行 动作流匹配 自适应观察 机器人控制 边缘计算
📋 核心要点
- VLA模型计算成本高,在资源受限的边缘设备上部署面临效率挑战,系统需等待前序阶段完成,导致频繁停顿和高延迟。
- 提出StreamingVLA,通过异步并行化VLA各阶段,实现“流式”处理,从而减少延迟和提高流畅性。
- StreamingVLA采用动作流匹配和动作显著性感知自适应观察机制,在不牺牲性能的前提下,显著加速并减少执行停顿。
📝 摘要(中文)
视觉-语言-动作(VLA)模型在自然语言驱动的感知和控制方面表现出色。然而,VLA模型的高计算成本带来了显著的效率挑战,尤其是在资源受限的边缘平台上进行实际部署时。由于VLA的不同阶段(观察、动作生成和执行)必须按顺序进行,并且需要等待前一阶段完成,因此系统会频繁停止并产生高延迟。为了解决这个问题,我们进行了一项系统分析,以确定快速流畅生成所面临的挑战,并提出使VLA能够以“流式”方式异步并行化VLA阶段。首先,我们消除了对动作分块的依赖,并采用动作流匹配,它学习动作流的轨迹,而不是去噪分块式动作,从而重叠了动作生成和执行的延迟。其次,我们设计了一种动作显著性感知自适应观察机制,从而重叠了执行和观察的延迟。在不牺牲性能的情况下,StreamingVLA实现了显著的加速,并提高了执行的流畅性。它实现了2.4倍的延迟加速,并将执行停止减少了6.5倍。
🔬 方法详解
问题定义:VLA模型在边缘设备上的部署面临高延迟和频繁停顿的问题。传统的VLA模型需要按顺序执行观察、动作生成和执行等阶段,导致系统效率低下,难以满足实时性要求。现有方法通常采用动作分块,但仍然无法有效解决VLA各阶段之间的依赖关系,限制了并行处理能力。
核心思路:StreamingVLA的核心思路是通过异步并行化VLA的各个阶段,实现“流式”处理。具体来说,它通过动作流匹配来重叠动作生成和执行的延迟,并通过动作显著性感知自适应观察机制来重叠执行和观察的延迟。这种设计旨在消除VLA各阶段之间的依赖关系,从而提高系统的整体吞吐量和响应速度。
技术框架:StreamingVLA的整体框架包含三个主要阶段:观察阶段、动作生成阶段和动作执行阶段。与传统VLA模型不同的是,这三个阶段可以异步并行执行。观察阶段负责从环境中获取视觉信息;动作生成阶段根据视觉信息生成相应的动作指令;动作执行阶段负责将动作指令转化为实际的物理动作。动作流匹配模块连接动作生成和执行阶段,自适应观察模块连接执行和观察阶段。
关键创新:StreamingVLA的关键创新在于以下两点:一是动作流匹配,它通过学习动作流的轨迹来替代传统的动作分块,从而实现了动作生成和执行的重叠;二是动作显著性感知自适应观察机制,它根据动作的显著性动态调整观察策略,从而实现了执行和观察的重叠。这些创新使得StreamingVLA能够以“流式”方式处理VLA任务,从而显著提高了系统的效率。
关键设计:动作流匹配模块使用神经网络学习动作流的轨迹,损失函数设计用于鼓励生成的动作流与真实动作流之间的匹配。动作显著性感知自适应观察机制使用注意力机制来确定图像中与当前动作相关的区域,并根据这些区域的重要性动态调整观察策略。具体的网络结构和参数设置未知,需要参考论文细节。
🖼️ 关键图片
📊 实验亮点
StreamingVLA在实验中实现了2.4倍的延迟加速,并将执行停止减少了6.5倍,证明了其在提高VLA模型效率方面的显著优势。这些结果表明,通过异步并行化VLA的各个阶段,可以有效地降低延迟并提高执行流畅性,从而为VLA模型在实际应用中的部署提供了新的可能性。具体的实验设置和对比基线未知,需要参考论文细节。
🎯 应用场景
StreamingVLA适用于需要实时交互的机器人应用,例如自动驾驶、智能制造和家庭服务机器人。通过降低延迟和提高执行流畅性,StreamingVLA可以使机器人在复杂环境中更快速、更准确地做出决策和执行动作,从而提高其智能化水平和适应能力。该研究对于推动VLA模型在资源受限平台上的应用具有重要意义。
📄 摘要(原文)
Vision-language-action (VLA) models have demonstrated exceptional performance in natural language-driven perception and control. However, the high computational cost of VLA models poses significant efficiency challenges, particularly for resource-constrained edge platforms in real-world deployments. However, since different stages of VLA (observation, action generation and execution) must proceed sequentially, and wait for the completion of the preceding stage, the system suffers from frequent halting and high latency. To address this, We conduct a systematic analysis to identify the challenges for fast and fluent generation, and propose enabling VLAs with the ability to asynchronously parallelize across VLA stages in a "streaming" manner. First, we eliminate the reliance on action chunking and adopt action flow matching, which learns the trajectory of action flows rather than denoising chunk-wise actions. It overlaps the latency of action generation and execution. Second, we design an action saliency-aware adaptive observation mechanism, thereby overlapping the latency of execution and observation. Without sacrificing performance, StreamingVLA achieves substantial speedup and improves the fluency of execution. It achieves a 2.4 $\times$ latency speedup and reduces execution halting by 6.5 $\times$.