FASTER: Rethinking Real-Time Flow VLAs

作者: Yuxiang Lu, Zhe Liu, Xianzhe Fan, Zhenya Yang, Jinghua Hou, Junyi Li, Kaixin Ding, Hengshuang Zhao

分类: cs.RO, cs.CV

发布日期: 2026-03-19

备注: Project page: https://innovator-zero.github.io/FASTER

💡 一句话要点

FASTER：重新思考实时Flow VLA，显著降低反应延迟

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 实时控制 视觉语言动作 反应延迟 机器人 流式推理 动作采样 范围感知

📋 核心要点

现有VLA模型在实时性方面存在不足，尤其是在对环境变化做出快速反应时，反应延迟成为瓶颈。
FASTER通过引入范围感知时间表，自适应地调整动作采样优先级，加速近期动作的生成，从而降低反应延迟。
实验表明，FASTER能显著降低反应延迟，并在真实机器人任务（如乒乓球）中实现更快的响应和更平滑的轨迹。

📝 摘要（中文）

实时执行对于在物理世界中部署视觉-语言-动作（VLA）模型至关重要。现有的异步推理方法主要优化轨迹平滑度，但忽略了对环境变化做出反应的关键延迟。本文通过重新思考动作分块策略中的反应概念，系统地分析了影响反应时间的因素。研究表明，反应时间服从由首次动作时间（TTFA）和执行范围共同决定的均匀分布。此外，我们发现，在基于流的VLA中应用恒定时间表的标准做法效率低下，并迫使系统在任何运动开始之前完成所有采样步骤，从而形成反应延迟的瓶颈。为了克服这个问题，我们提出了用于即时反应的快速动作采样（FASTER）。通过引入范围感知时间表，FASTER自适应地优先处理流采样中的近期动作，将立即反应的去噪压缩十倍（例如，在$π_{0.5}$和X-VLA中）到单个步骤中，同时保持长范围轨迹的质量。结合流式客户端-服务器管道，FASTER大大降低了真实机器人上的有效反应延迟，尤其是在消费级GPU上部署时。包括高度动态的乒乓球任务在内的真实世界实验证明，FASTER为通用策略解锁了前所未有的实时响应能力，从而能够快速生成准确和平滑的轨迹。

🔬 方法详解

问题定义：现有基于流的VLA模型在实时性方面存在挑战，尤其是在需要快速响应环境变化的任务中。传统的异步推理方法侧重于优化轨迹的平滑性，但忽略了反应延迟这一关键因素。标准做法中采用的恒定时间表导致系统必须完成所有采样步骤才能开始运动，从而造成了反应延迟的瓶颈。

核心思路：FASTER的核心思路是优先处理近期动作的采样，从而加速对环境变化的即时反应。通过引入范围感知时间表，FASTER能够自适应地调整采样策略，将计算资源集中在对当前动作影响最大的近期步骤上，从而显著降低反应延迟。

技术框架：FASTER采用流式客户端-服务器管道，客户端负责感知环境并生成动作指令，服务器负责执行VLA模型并生成轨迹。关键在于服务器端的动作采样模块，该模块使用范围感知时间表来调整采样优先级。整体流程包括：1）接收环境信息；2）使用范围感知时间表进行动作采样；3）生成轨迹；4）将轨迹发送给机器人执行。

关键创新：FASTER最重要的创新点在于提出了范围感知时间表，它能够根据动作的执行范围自适应地调整采样优先级。与传统的恒定时间表不同，范围感知时间表优先处理近期动作的采样，从而显著降低了反应延迟，同时保持了长范围轨迹的质量。

关键设计：范围感知时间表是FASTER的关键设计。具体实现方式未知，但其核心思想是根据动作的执行范围（horizon）来分配采样权重。例如，可以设计一个权重函数，使得距离当前时间步越近的动作，其采样权重越高。此外，FASTER还采用了流式客户端-服务器架构，以进一步降低延迟。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FASTER能够显著降低反应延迟，尤其是在消费级GPU上部署时。在乒乓球任务中，FASTER能够实现更快的响应和更平滑的轨迹。具体而言，FASTER可以将反应延迟降低十倍（例如，在$π_{0.5}$和X-VLA中），同时保持长范围轨迹的质量。这些结果证明了FASTER在实时VLA应用中的有效性。

🎯 应用场景

FASTER具有广泛的应用前景，尤其是在需要实时响应的机器人任务中，例如自动驾驶、机器人导航、人机协作等。通过降低反应延迟，FASTER可以使机器人更加安全、高效地与环境交互，从而提高其在复杂环境中的适应性和可靠性。此外，FASTER还可以应用于虚拟现实、游戏等领域，提升用户体验。

📄 摘要（原文）

Real-time execution is crucial for deploying Vision-Language-Action (VLA) models in the physical world. Existing asynchronous inference methods primarily optimize trajectory smoothness, but neglect the critical latency in reacting to environmental changes. By rethinking the notion of reaction in action chunking policies, this paper presents a systematic analysis of the factors governing reaction time. We show that reaction time follows a uniform distribution determined jointly by the Time to First Action (TTFA) and the execution horizon. Moreover, we reveal that the standard practice of applying a constant schedule in flow-based VLAs can be inefficient and forces the system to complete all sampling steps before any movement can start, forming the bottleneck in reaction latency. To overcome this issue, we propose Fast Action Sampling for ImmediaTE Reaction (FASTER). By introducing a Horizon-Aware Schedule, FASTER adaptively prioritizes near-term actions during flow sampling, compressing the denoising of the immediate reaction by tenfold (e.g., in $π_{0.5}$ and X-VLA) into a single step, while preserving the quality of long-horizon trajectory. Coupled with a streaming client-server pipeline, FASTER substantially reduces the effective reaction latency on real robots, especially when deployed on consumer-grade GPUs. Real-world experiments, including a highly dynamic table tennis task, prove that FASTER unlocks unprecedented real-time responsiveness for generalist policies, enabling rapid generation of accurate and smooth trajectories.

FASTER: Rethinking Real-Time Flow VLAs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理