SnapFlow: One-Step Action Generation for Flow-Matching VLAs via Progressive Self-Distillation
作者: Wuyang Luan, Junhui Li, Weiguang Zhao, Wenjian Zhang, Tieru Wu, Rui Ma
分类: cs.CV, cs.AI
发布日期: 2026-04-07
备注: 10 pages, 6 figures, 9 tables
💡 一句话要点
SnapFlow:基于渐进式自蒸馏的Flow-Matching VLA单步动作生成
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人操作 视觉语言动作 流匹配 自蒸馏 单步动作生成
📋 核心要点
- Flow-Matching VLA模型推理速度慢,主要瓶颈在于多步迭代去噪过程,严重影响了机器人操作的实时性。
- SnapFlow通过自蒸馏将多步去噪压缩为单步,避免了传统单步方法的速度场校准问题,无需外部教师和架构修改。
- 实验表明,SnapFlow在多个VLA模型和任务上实现了显著的加速,同时保持甚至略微提升了性能,具有良好的泛化能力。
📝 摘要(中文)
基于流匹配的视觉-语言-动作(VLA)模型,如pi0、pi0.5和SmolVLA,在通用机器人操作方面达到了最先进的水平。然而,它们迭代去噪过程(通常为10个ODE步骤)引入了显著的延迟:在现代GPU上,仅去噪就占端到端推理时间的80%。简单地减少步数是不可靠的,由于速度场未针对单步跳跃进行校准,导致大多数任务的成功率下降。我们提出了SnapFlow,一种即插即用的自蒸馏方法,它将多步去噪压缩为流匹配VLA的单次前向传递(1-NFE)。SnapFlow将标准流匹配样本与一致性样本混合,一致性样本的目标是从模型自身的边际速度预测计算出的两步欧拉捷径速度,从而避免了由条件速度引起的轨迹漂移,我们在理论上对此进行了分析。零初始化的目标时间嵌入使网络能够在单个架构中切换局部速度估计和全局单步生成。SnapFlow不需要外部教师,无需架构更改,并且可以在单个GPU上在约12小时内完成训练。我们在跨越6倍参数范围的两个VLA架构上验证了该方法,使用相同的超参数:在pi0.5(3B)上,跨四个LIBERO套件(40个任务,400个episode),SnapFlow实现了98.75%的平均成功率——与10步教师的97.75%相匹配,并略微超过它——具有9.6倍的去噪加速,端到端延迟从274ms降低到83ms;在SmolVLA(500M)上,它将MSE降低了8.3%,端到端加速了3.56倍。在长时程任务上的动作步数扫描表明,SnapFlow在整个执行时程中保持其优势,在n_act=5时达到93%,而基线仅达到90%。SnapFlow与层蒸馏和token剪枝方法正交,从而实现组合加速。
🔬 方法详解
问题定义:现有的基于流匹配的视觉-语言-动作(VLA)模型,如pi0、pi0.5和SmolVLA,虽然在机器人操作任务上表现出色,但其推理速度较慢。主要原因是这些模型依赖于多步迭代去噪过程,该过程计算量大,占据了端到端推理时间的大部分。简单地减少迭代步数会导致性能显著下降,因为模型的速度场没有针对单步动作生成进行校准。
核心思路:SnapFlow的核心思路是通过自蒸馏将多步去噪过程压缩为单步动作生成。它利用模型自身的预测结果作为目标,训练模型直接预测单步动作,而无需进行多次迭代。为了避免由条件速度引起的轨迹漂移,SnapFlow使用两步欧拉捷径速度作为一致性样本的目标。
技术框架:SnapFlow是一个即插即用的模块,可以集成到现有的基于流匹配的VLA模型中。训练过程中,SnapFlow将标准流匹配样本与一致性样本混合。一致性样本的目标是通过模型自身的边际速度预测计算得到的两步欧拉捷径速度。此外,SnapFlow使用一个零初始化的目标时间嵌入,允许网络在局部速度估计和全局单步生成之间切换。
关键创新:SnapFlow的关键创新在于其自蒸馏方法,该方法允许模型在没有外部教师的情况下学习单步动作生成。通过使用两步欧拉捷径速度作为一致性样本的目标,SnapFlow避免了由条件速度引起的轨迹漂移,从而提高了单步动作生成的准确性。此外,零初始化的目标时间嵌入使得网络能够灵活地适应不同的任务和场景。
关键设计:SnapFlow的关键设计包括:1) 使用两步欧拉捷径速度作为一致性样本的目标,计算公式为:x_{t+2h} = x_t + 2h * v(x_t, t),其中x_t是时间t的状态,v(x_t, t)是模型预测的速度,h是步长。2) 零初始化的目标时间嵌入,允许网络学习区分局部速度估计和全局单步生成。3) 损失函数结合了标准流匹配损失和一致性损失,以确保模型能够准确地预测单步动作。
🖼️ 关键图片
📊 实验亮点
SnapFlow在pi0.5(3B)模型上,跨四个LIBERO套件(40个任务,400个episode)实现了98.75%的平均成功率,与10步教师的97.75%相匹配,并略微超过它,同时实现了9.6倍的去噪加速,端到端延迟从274ms降低到83ms。在SmolVLA(500M)模型上,SnapFlow将MSE降低了8.3%,端到端加速了3.56倍。在长时程任务中,SnapFlow在n_act=5时达到93%的成功率,而基线仅达到90%。
🎯 应用场景
SnapFlow具有广泛的应用前景,尤其是在需要实时机器人操作的场景中,例如自动驾驶、工业自动化、医疗机器人等。通过显著降低推理延迟,SnapFlow使得机器人能够更快地响应环境变化,从而提高操作效率和安全性。此外,SnapFlow的自蒸馏方法也为其他需要加速的深度学习模型提供了借鉴。
📄 摘要(原文)
Vision-Language-Action (VLA) models based on flow matching -- such as pi0, pi0.5, and SmolVLA -- achieve state-of-the-art generalist robotic manipulation, yet their iterative denoising, typically 10 ODE steps, introduces substantial latency: on a modern GPU, denoising alone accounts for 80% of end-to-end inference time. Naively reducing the step count is unreliable, degrading success on most tasks due to the velocity field being uncalibrated for single-step jumps. We present SnapFlow, a plug-and-play self-distillation method that compresses multi-step denoising into a single forward pass (1-NFE) for flow-matching VLAs. SnapFlow mixes standard flow-matching samples with consistency samples whose targets are two-step Euler shortcut velocities computed from the model's own marginal velocity predictions, avoiding the trajectory drift caused by conditional velocities, as we analyze theoretically. A zero-initialized target-time embedding lets the network switch between local velocity estimation and global one-step generation within a single architecture. SnapFlow requires no external teacher, no architecture changes, and trains in ~12h on a single GPU. We validate on two VLA architectures spanning a 6x parameter range, with identical hyperparameters: on pi0.5 (3B) across four LIBERO suites (40 tasks, 400 episodes), SnapFlow achieves 98.75% average success -- matching the 10-step teacher at 97.75% and slightly exceeding it -- with 9.6x denoising speedup and end-to-end latency reduced from 274ms to 83ms; on SmolVLA (500M), it reduces MSE by 8.3% with 3.56x end-to-end acceleration. An action-step sweep on long-horizon tasks reveals that SnapFlow maintains its advantage across execution horizons, achieving 93% at n_act=5 where the baseline reaches only 90%. SnapFlow is orthogonal to layer-distillation and token-pruning approaches, enabling compositional speedups.