FLASH: Efficient Visuomotor Policy via Sparse Sampling
作者: Jiaqi Bai, Jindou Jia, Yuxuan Hu, Gen Li, Xiangyu Chen, Tuo An, Kuangji Zuo, Jianfei Yang
分类: cs.RO, cs.CV
发布日期: 2026-05-15
备注: 19 pages, 10 figures
💡 一句话要点
FLASH:基于稀疏采样的快速视觉运动策略学习
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视觉运动策略 Flow Matching 勒让德多项式 机器人控制 实时控制
📋 核心要点
- 现有视觉运动策略学习方法,如扩散模型和Flow Matching,推理速度慢,难以满足实时机器人控制的需求。
- FLASH Policy通过勒让德多项式表示动作轨迹,并从历史信息启动Flow Matching,实现快速单步推理。
- 实验表明,FLASH在多个任务中达到SOTA成功率,推理速度大幅提升,训练收敛更快,控制精度更高。
📝 摘要(中文)
扩散模型和Flow Matching等生成模型已成为视觉运动策略学习的主流范式,但它们对迭代去噪的依赖导致高推理延迟,与实时机器人控制不兼容。我们提出了基于稀疏历史锚定流的快速勒让德多项式动作策略(FLASH Policy),它用连续的勒让德多项式轨迹表示代替了离散的动作块生成。具体来说,通过在稀疏时间采样下拟合专家演示,FLASH能够通过单次推理覆盖显著扩展的动作范围。为了进一步加速生成,FLASH从历史多项式系数而不是无信息的Gaussian噪声启动Flow Matching过程,缩短了传输距离并实现了准确的单步推理。此外,解析多项式微分直接为扭矩控制器提供所需的velocity feed-forward信号,而无需数值近似。在五个模拟和两个真实世界操作任务上的大量实验表明,FLASH实现了最先进的成功率(所有任务中≥92%),每次episode的推理时间为31.40ms(比扩散策略快175倍,比先前的Flow Matching策略快18倍),比ACT快4倍的训练收敛速度,以及与离散动作基线相比,控制器跟踪误差减少5倍至7倍。
🔬 方法详解
问题定义:现有基于生成模型的视觉运动策略学习方法,如扩散模型和Flow Matching,依赖于迭代去噪过程,导致推理延迟过高,无法满足实时机器人控制的需求。这些方法通常生成离散的动作块,需要进一步处理才能用于连续控制。
核心思路:FLASH Policy的核心思路是使用连续的勒让德多项式来表示动作轨迹,并利用稀疏采样和历史信息来加速Flow Matching过程。通过将动作表示为多项式,可以实现更高效的推理和更精确的控制。
技术框架:FLASH Policy的整体框架包括以下几个主要阶段:1) 从专家演示数据中进行稀疏采样;2) 使用勒让德多项式拟合采样的动作轨迹;3) 使用Flow Matching学习从历史多项式系数到未来多项式系数的映射;4) 在推理时,从历史多项式系数出发,通过单步Flow Matching生成未来动作轨迹的多项式系数;5) 使用解析多项式微分计算速度信息,并将其作为前馈信号输入到扭矩控制器。
关键创新:FLASH Policy的关键创新点在于:1) 使用连续的勒让德多项式表示动作轨迹,避免了离散动作块的生成;2) 从历史多项式系数启动Flow Matching过程,缩短了传输距离,加速了推理;3) 使用解析多项式微分直接计算速度信息,避免了数值近似,提高了控制精度。
关键设计:FLASH Policy的关键设计包括:1) 稀疏采样策略,用于从专家演示数据中选择具有代表性的样本;2) 勒让德多项式的阶数选择,用于平衡表示能力和计算复杂度;3) Flow Matching网络的结构设计,用于学习从历史多项式系数到未来多项式系数的映射;4) 损失函数的设计,用于优化Flow Matching网络的参数。
🖼️ 关键图片
📊 实验亮点
FLASH在五个模拟和两个真实世界的操作任务上取得了显著成果。在所有任务中,FLASH的成功率均高于92%。FLASH的单次episode推理时间为31.40ms,比扩散策略快175倍,比先前的Flow Matching策略快18倍。此外,FLASH的训练收敛速度比ACT快4倍,控制器跟踪误差比离散动作基线减少5倍至7倍。
🎯 应用场景
FLASH Policy具有广泛的应用前景,可以应用于各种需要实时控制的机器人任务,例如:工业自动化、无人驾驶、医疗机器人等。该方法可以提高机器人的响应速度和控制精度,使其能够更好地适应复杂和动态的环境。未来,FLASH Policy可以进一步扩展到更复杂的任务和更广泛的机器人平台。
📄 摘要(原文)
Generative models such as diffusion and flow matching have become dominant paradigms for visuomotor policy learning, yet their reliance on iterative denoising incurs high inference latency incompatible with real-time robotic control. We present Fast Legendre-polynomial Action policy via Sparse History-anchored flow (FLASH Policy), which replaces discrete action-chunk generation with continuous Legendre polynomial trajectory representation. Specifically, by fitting expert demonstrations under sparse temporal sampling, FLASH enables a single inference to cover a significantly extended action horizon. To further accelerate generation, FLASH initiates the flow matching process from history polynomial coefficients rather than uninformative Gaussian noise, shortening the transport distance and enabling accurate single-step inference. Moreover, analytic polynomial differentiation directly provides desired velocity feed-forward signals to the torque controller without numerical approximation. Extensive experiments on five simulated and two real-world manipulation tasks demonstrate that FLASH achieves state-of-the-art success rates ($\ge 92\%$ across all tasks), a per-episode inference time of $31.40\,ms$ (up to $175\times$ faster than diffusion policies and $18\times$ faster than prior flow matching policies), up to $4\times$ faster training convergence than ACT, and $5\times$ to $7\times$ reduction in controller tracking error compared to discrete-action baselines.