HybridFlow: A Two-Step Generative Policy for Robotic Manipulation

📄 arXiv: 2602.13718v1 📥 PDF

作者: Zhenchen Dong, Jinna Fu, Jiaming Wu, Shengyuan Yu, Fulin Chen, Yide Liu

分类: cs.RO, cs.AI

发布日期: 2026-02-14


💡 一句话要点

HybridFlow:一种用于机器人操作的两步生成策略,提升交互速度与精度。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人操作 生成策略 Flow Matching MeanFlow ReFlow 低延迟 实时交互

📋 核心要点

  1. 现有机器人操作策略推理延迟高,难以进行实时环境交互,限制了其应用。
  2. HybridFlow结合MeanFlow的快速性和ReFlow的精确性,通过两步生成策略平衡速度与精度。
  3. 实验表明,HybridFlow在真实场景中显著提升了机器人操作的成功率和推理速度。

📝 摘要(中文)

现有的机器人操作策略受限于推理延迟,缺乏与环境的实时交互能力。虽然诸如Flow Matching等更快的生成方法正逐渐取代扩散模型,但研究人员正在追求更快的生成方法,以适应交互式机器人控制。MeanFlow作为Flow Matching的单步变体,在图像生成方面表现出强大的潜力,但其在动作生成方面的精度无法满足机器人操作的严格要求。因此,我们提出了HybridFlow,一种包含全局跳跃(MeanFlow模式)、重噪声(分布对齐)和局部细化(ReFlow模式)三个阶段、两次函数评估(2-NFE)的方法。该方法通过利用MeanFlow单步生成的快速优势,同时通过最少的生成步骤确保动作精度,从而平衡了推理速度和生成质量。通过真实世界的实验,HybridFlow在成功率方面优于16步扩散策略15-25%,同时将推理时间从152ms减少到19ms(8倍加速,约52Hz);它还在未见过的颜色OOD抓取上实现了70.0%的成功率,在可变形物体折叠上实现了66.3%的成功率。我们认为HybridFlow是一种实用的低延迟方法,可以增强机器人操作策略的真实世界交互能力。

🔬 方法详解

问题定义:论文旨在解决机器人操作策略中推理速度慢,难以进行实时交互的问题。现有方法,如扩散模型,虽然生成质量高,但推理速度慢。而MeanFlow等单步方法虽然速度快,但在动作生成精度上无法满足机器人操作的严格要求。

核心思路:论文的核心思路是结合MeanFlow的快速全局探索能力和ReFlow的局部精确调整能力,通过两步生成策略,在保证推理速度的同时,提高动作生成的精度。通过先进行快速的全局跳跃,然后进行局部细化,从而达到速度和精度的平衡。

技术框架:HybridFlow包含三个阶段:1) 全局跳跃(Global Jump):使用MeanFlow模式进行快速的全局动作生成,快速探索动作空间。2) 重噪声(ReNoise):对生成的动作进行重噪声处理,用于分布对齐,为后续的局部细化做准备。3) 局部细化(Local Refine):使用ReFlow模式对动作进行局部精细调整,提高动作的精度。整个流程仅需两次函数评估(2-NFE),保证了推理速度。

关键创新:HybridFlow的关键创新在于提出了一个混合的生成策略,将MeanFlow和ReFlow结合起来,充分利用了各自的优势。与传统的单步或多步生成方法相比,HybridFlow能够在速度和精度之间取得更好的平衡。此外,重噪声(ReNoise)阶段的设计也保证了分布对齐,使得局部细化能够更有效地提高动作精度。

关键设计:在全局跳跃阶段,使用MeanFlow进行单步生成。在重噪声阶段,采用高斯噪声进行数据增强。在局部细化阶段,使用ReFlow进行迭代优化。损失函数的设计需要同时考虑动作的准确性和轨迹的平滑性。具体的网络结构和参数设置需要根据具体的机器人操作任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HybridFlow在真实世界实验中表现出色,相较于16步扩散策略,成功率提升了15-25%,推理时间从152ms降低到19ms,实现了8倍加速(约52Hz)。在未见过的颜色OOD抓取和可变形物体折叠任务中,分别取得了70.0%和66.3%的成功率,验证了其泛化能力和鲁棒性。

🎯 应用场景

HybridFlow具有广泛的应用前景,可应用于工业自动化、家庭服务机器人、医疗机器人等领域。该方法能够显著提升机器人在复杂环境中的操作能力,例如物体抓取、装配、折叠等。未来,HybridFlow有望成为一种通用的机器人操作策略,推动机器人技术的发展。

📄 摘要(原文)

Limited by inference latency, existing robot manipulation policies lack sufficient real-time interaction capability with the environment. Although faster generation methods such as flow matching are gradually replacing diffusion methods, researchers are pursuing even faster generation suitable for interactive robot control. MeanFlow, as a one-step variant of flow matching, has shown strong potential in image generation, but its precision in action generation does not meet the stringent requirements of robotic manipulation. We therefore propose \textbf{HybridFlow}, a \textbf{3-stage method} with \textbf{2-NFE}: Global Jump in MeanFlow mode, ReNoise for distribution alignment, and Local Refine in ReFlow mode. This method balances inference speed and generation quality by leveraging the rapid advantage of MeanFlow one-step generation while ensuring action precision with minimal generation steps. Through real-world experiments, HybridFlow outperforms the 16-step Diffusion Policy by \textbf{15--25\%} in success rate while reducing inference time from 152ms to 19ms (\textbf{8$\times$ speedup}, \textbf{$\sim$52Hz}); it also achieves 70.0\% success on unseen-color OOD grasping and 66.3\% on deformable object folding. We envision HybridFlow as a practical low-latency method to enhance real-world interaction capabilities of robotic manipulation policies.