ActionFlow: A Pipelined Action Acceleration for Vision Language Models on Edge

📄 arXiv: 2512.20276v1 📥 PDF

作者: Yuntao Dai, Hang Gu, Teng Wang, Qianyu Cheng, Yifei Zheng, Zhiyong Qiu, Lei Gong, Wenqi Lou, Xuehai Zhou

分类: cs.AI, cs.RO

发布日期: 2025-12-23


💡 一句话要点

ActionFlow:边缘设备上视觉语言模型流水线式动作加速框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 边缘计算 推理加速 流水线调度 机器人控制

📋 核心要点

  1. 现有VLA模型在边缘设备上推理速度慢,难以满足机器人实时交互的需求,主要瓶颈在于自回归解码的内存限制。
  2. ActionFlow通过跨请求流水线策略,将VLA推理分解为微请求的宏流水线,优化内存和计算资源的利用率。
  3. 实验表明,ActionFlow在OpenVLA-7B模型上实现了2.55倍的FPS提升,无需重新训练,显著提升了边缘设备的实时性。

📝 摘要(中文)

视觉-语言-动作(VLA)模型已成为机器人感知和控制的统一范式,实现了涌现泛化和长时程任务执行。然而,由于推理延迟高,它们在动态、真实世界环境中的部署受到严重阻碍。流畅的机器人交互需要20到30 Hz的控制频率,但由于自回归解码的内存限制,目前的VLA模型在边缘设备上通常只能以3-5 Hz运行。现有的优化方法通常需要大量的重新训练或牺牲模型精度。为了弥合这一差距,我们引入了ActionFlow,这是一个为资源受限的边缘平台量身定制的系统级推理框架。ActionFlow的核心是跨请求流水线策略,这是一种新颖的调度器,它将VLA推理重新定义为微请求的宏流水线。该策略智能地将内存受限的解码阶段与计算受限的预填充阶段在连续时间步长上进行批处理,以最大限度地提高硬件利用率。此外,为了支持这种调度,我们提出了一种跨请求状态打包前向算子和一个统一的KV环形缓冲区,它们将分散的内存操作融合为高效的密集计算。实验结果表明,ActionFlow在OpenVLA-7B模型上实现了2.55倍的FPS提升,无需重新训练,从而能够在边缘硬件上实现实时的动态操作。

🔬 方法详解

问题定义:论文旨在解决视觉-语言-动作(VLA)模型在资源受限的边缘设备上推理速度慢的问题。现有的VLA模型由于自回归解码的内存限制,无法满足机器人实时交互所需的控制频率(20-30Hz)。现有的优化方法要么需要大量重新训练,要么会牺牲模型精度。

核心思路:ActionFlow的核心思路是将VLA模型的推理过程重新组织成一个流水线,通过跨请求调度,将内存受限的解码阶段和计算受限的预填充阶段进行高效的并行处理,从而提高硬件利用率,加速推理过程。这种设计避免了对模型进行重新训练,同时保持了模型精度。

技术框架:ActionFlow的整体框架包含以下几个关键组件:1) 跨请求流水线调度器:负责将VLA推理任务分解为微请求,并根据硬件资源情况进行调度。2) 跨请求状态打包前向算子:将分散的内存操作融合为高效的密集计算,减少内存访问开销。3) 统一的KV环形缓冲区:用于存储和管理模型的状态信息,提高内存访问效率。整个流程可以看作是一个宏流水线,其中每个微请求都经过预填充和解码阶段。

关键创新:ActionFlow最重要的技术创新在于其跨请求流水线调度策略。与传统的串行推理方式不同,ActionFlow将多个推理请求的预填充和解码阶段进行交错执行,从而充分利用硬件资源,减少空闲时间。此外,跨请求状态打包前向算子和统一的KV环形缓冲区进一步优化了内存访问,提高了推理效率。

关键设计:ActionFlow的关键设计包括:1) 流水线深度:根据硬件资源和模型大小进行调整,以达到最佳的并行度和吞吐量。2) 批处理大小:控制每个批次中包含的微请求数量,平衡计算效率和内存占用。3) KV环形缓冲区大小:根据模型的状态大小和推理需求进行设置,确保能够存储足够的状态信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ActionFlow在OpenVLA-7B模型上实现了显著的性能提升,在无需重新训练的情况下,FPS提高了2.55倍。这意味着在相同的硬件条件下,机器人可以更快地做出决策和执行动作,从而实现更流畅、更自然的交互。实验结果表明,ActionFlow能够有效地解决VLA模型在边缘设备上推理速度慢的问题,为VLA模型在实际应用中的部署奠定了基础。

🎯 应用场景

ActionFlow可应用于各种需要实时机器人控制的场景,例如自主导航、物体抓取、装配等。通过提高VLA模型在边缘设备上的推理速度,ActionFlow使得机器人能够更快地响应环境变化,执行更复杂的任务,从而提升机器人的智能化水平和应用范围。未来,ActionFlow有望推动VLA模型在工业自动化、智能家居、医疗健康等领域的广泛应用。

📄 摘要(原文)

Vision-Language-Action (VLA) models have emerged as a unified paradigm for robotic perception and control, enabling emergent generalization and long-horizon task execution. However, their deployment in dynamic, real-world environments is severely hin dered by high inference latency. While smooth robotic interaction requires control frequencies of 20 to 30 Hz, current VLA models typi cally operate at only 3-5 Hz on edge devices due to the memory bound nature of autoregressive decoding. Existing optimizations often require extensive retraining or compromise model accuracy. To bridge this gap, we introduce ActionFlow, a system-level inference framework tailored for resource-constrained edge plat forms. At the core of ActionFlow is a Cross-Request Pipelin ing strategy, a novel scheduler that redefines VLA inference as a macro-pipeline of micro-requests. The strategy intelligently batches memory-bound Decode phases with compute-bound Prefill phases across continuous time steps to maximize hardware utilization. Furthermore, to support this scheduling, we propose a Cross Request State Packed Forward operator and a Unified KV Ring Buffer, which fuse fragmented memory operations into efficient dense computations. Experimental results demonstrate that ActionFlow achieves a 2.55x improvement in FPS on the OpenVLA-7B model without retraining, enabling real-time dy namic manipulation on edge hardware. Our work is available at https://anonymous.4open.science/r/ActionFlow-1D47.