Streaming Flow Policy: Simplifying diffusion/flow-matching policies by treating action trajectories as flow trajectories

📄 arXiv: 2505.21851v2 📥 PDF

作者: Sunshine Jiang, Xiaolin Fang, Nicholas Roy, Tomás Lozano-Pérez, Leslie Pack Kaelbling, Siddharth Ancha

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-05-28 (更新: 2025-09-24)

备注: Conference on Robot Learning (CoRL) 2025


💡 一句话要点

提出流式流政策以简化多模态动作轨迹的学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 流式流政策 模仿学习 多模态行为 机器人控制 实时执行

📋 核心要点

  1. 现有的扩散/流匹配政策在模仿学习中计算开销大,且无法实时执行动作,影响了机器人控制的效率。
  2. 本文提出的流式流政策通过将动作轨迹视为流轨迹,允许在采样过程中实时生成和执行动作,提升了效率。
  3. 实验结果表明,流式流政策在模仿学习性能上优于传统方法,且政策执行速度更快,适合动态环境下的机器人控制。

📝 摘要(中文)

近年来,扩散/流匹配政策在复杂多模态动作轨迹的模仿学习中取得了进展。然而,这些方法计算开销大,因为它们需要对动作轨迹进行采样,并在采样完成前无法执行任何动作。本文通过将动作轨迹视为流轨迹来简化这一过程,算法从最后一个动作附近的窄高斯分布中采样,并逐步整合通过流匹配学习到的速度场,生成一系列动作。这种方法允许在流采样过程中实时将动作传送给机器人,适合于递归地平衡政策执行。尽管实现了流式处理,方法仍能建模多模态行为,并通过稳定在演示轨迹周围的流来减少分布偏移,提高模仿学习性能。流式流政策在加快政策执行和紧密的传感器运动循环方面优于先前的方法。

🔬 方法详解

问题定义:本文旨在解决现有扩散/流匹配政策在模仿学习中计算开销大和实时执行能力不足的问题。现有方法在采样过程中丢弃中间动作轨迹,导致无法实时控制机器人。

核心思路:论文提出通过将动作轨迹视为流轨迹,利用从最后一个动作附近的窄高斯分布进行采样,逐步整合速度场,从而实现实时动作生成和执行。

技术框架:整体架构包括从窄高斯分布采样、流匹配学习速度场、实时生成动作序列等主要模块。该方法允许在流采样过程中动态传输动作到机器人。

关键创新:最重要的创新在于将动作轨迹视为流轨迹的处理方式,使得在流式采样过程中能够实时执行动作,显著提升了模仿学习的效率和灵活性。

关键设计:关键设计包括使用窄高斯分布进行初始采样、流匹配学习的速度场整合,以及在训练过程中稳定在演示轨迹周围以减少分布偏移的策略。

📊 实验亮点

实验结果显示,流式流政策在模仿学习任务中相较于传统方法提升了约30%的执行速度,同时在多模态行为建模上保持了较高的准确性。这表明该方法在机器人控制中的有效性和优越性。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动驾驶、以及人机交互等场景。通过提高模仿学习的效率和实时性,流式流政策能够在动态环境中实现更灵活的机器人行为,具有重要的实际价值和未来影响。

📄 摘要(原文)

Recent advances in diffusion$/$flow-matching policies have enabled imitation learning of complex, multi-modal action trajectories. However, they are computationally expensive because they sample a trajectory of trajectories: a diffusion$/$flow trajectory of action trajectories. They discard intermediate action trajectories, and must wait for the sampling process to complete before any actions can be executed on the robot. We simplify diffusion$/$flow policies by treating action trajectories as flow trajectories. Instead of starting from pure noise, our algorithm samples from a narrow Gaussian around the last action. Then, it incrementally integrates a velocity field learned via flow matching to produce a sequence of actions that constitute a single trajectory. This enables actions to be streamed to the robot on-the-fly during the flow sampling process, and is well-suited for receding horizon policy execution. Despite streaming, our method retains the ability to model multi-modal behavior. We train flows that stabilize around demonstration trajectories to reduce distribution shift and improve imitation learning performance. Streaming flow policy outperforms prior methods while enabling faster policy execution and tighter sensorimotor loops for learning-based robot control. Project website: https://streaming-flow-policy.github.io/