One-Step Flow Policy: Self-Distillation for Fast Visuomotor Policies

📄 arXiv: 2603.12480v1 📥 PDF

作者: Shaolong Li, Lichao Sun, Yongchao Chen

分类: cs.RO, cs.AI

发布日期: 2026-03-12


💡 一句话要点

提出One-Step Flow Policy,通过自蒸馏实现快速高精度机器人视觉运动策略。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人控制 视觉运动策略 生成式模型 自蒸馏 单步策略 低延迟 强化学习

📋 核心要点

  1. 生成式模型在机器人控制中面临推理延迟挑战,限制了实时性要求高的任务表现。
  2. One-Step Flow Policy (OFP) 采用自蒸馏框架,无需预训练教师模型,实现单步高保真动作生成。
  3. 实验表明,OFP在多个模拟任务中超越了传统方法,推理速度提升超过100倍,并在真实机器人平台上验证了有效性。

📝 摘要(中文)

生成式流模型和扩散模型为高精度机器人策略提供了连续的多模态动作分布。然而,它们对迭代采样的依赖引入了严重的推理延迟,降低了控制频率,并损害了时间敏感型操作的性能。为了解决这个问题,我们提出了One-Step Flow Policy (OFP),这是一个从头开始的自蒸馏框架,用于高保真、单步动作生成,无需预训练的教师模型。OFP统一了自一致性损失,以强制执行跨时间间隔的连贯传输,以及自引导正则化,以锐化对高密度专家模式的预测。此外,一种热启动机制利用时间动作相关性来最小化生成传输距离。在56个不同的模拟操作任务中的评估表明,单步OFP实现了最先进的结果,优于100步扩散和流策略,同时将动作生成加速了100倍以上。我们进一步将OFP集成到RoboTwin 2.0上的$π_{0.5}$模型中,其中单步OFP超过了原始的10步策略。这些结果确立了OFP作为一种实用、可扩展的解决方案,用于高度准确和低延迟的机器人控制。

🔬 方法详解

问题定义:现有基于生成式模型(如Flow和Diffusion模型)的机器人控制策略,虽然能够生成连续、多模态的动作分布,但由于需要进行迭代采样,导致推理延迟过高,无法满足时间敏感型任务的需求。因此,如何降低生成式模型的推理延迟,同时保持其生成动作的高精度,是本论文要解决的核心问题。

核心思路:本论文的核心思路是通过自蒸馏的方式,将复杂生成模型的知识转移到一个单步模型中,从而避免迭代采样带来的延迟。具体来说,OFP通过设计合适的损失函数和正则化方法,使得单步模型能够直接生成高质量的动作,而无需依赖预训练的教师模型。

技术框架:OFP的整体框架包含以下几个关键模块:1) 单步动作生成网络:该网络直接将当前状态映射到动作空间,生成单步动作。2) 自一致性损失:该损失函数用于保证在不同时间间隔内,生成的动作序列的一致性。3) 自引导正则化:该正则化项用于锐化模型的预测,使其更接近高密度专家模式。4) 热启动机制:该机制利用时间动作相关性,最小化生成传输距离,加速模型训练。

关键创新:OFP的关键创新在于提出了一种从头开始的自蒸馏框架,无需预训练的教师模型。通过自一致性损失和自引导正则化,OFP能够有效地将复杂生成模型的知识转移到单步模型中,从而实现高精度和低延迟的动作生成。此外,热启动机制进一步加速了模型训练,提高了模型的性能。

关键设计:OFP的关键设计包括:1) 自一致性损失的具体形式,例如可以使用KL散度或JS散度来衡量不同时间间隔内生成动作分布的差异。2) 自引导正则化的具体形式,例如可以使用熵正则化或对抗训练来锐化模型的预测。3) 热启动机制的具体实现,例如可以使用滑动平均或动量更新来利用时间动作相关性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,One-Step Flow Policy (OFP) 在56个不同的模拟操作任务中取得了最先进的结果,超越了100步扩散和流策略,同时将动作生成加速了100倍以上。在RoboTwin 2.0平台上,单步OFP超过了原始的10步策略,验证了其在真实机器人环境中的有效性。

🎯 应用场景

One-Step Flow Policy (OFP) 在机器人操作、自动驾驶、游戏AI等领域具有广泛的应用前景。它可以显著降低控制策略的推理延迟,提高机器人在时间敏感任务中的表现,例如高速抓取、动态避障等。此外,OFP的自蒸馏框架也为其他需要加速推理的生成式模型提供了一种新的思路。

📄 摘要(原文)

Generative flow and diffusion models provide the continuous, multimodal action distributions needed for high-precision robotic policies. However, their reliance on iterative sampling introduces severe inference latency, degrading control frequency and harming performance in time-sensitive manipulation. To address this problem, we propose the One-Step Flow Policy (OFP), a from-scratch self-distillation framework for high-fidelity, single-step action generation without a pre-trained teacher. OFP unifies a self-consistency loss to enforce coherent transport across time intervals, and a self-guided regularization to sharpen predictions toward high-density expert modes. In addition, a warm-start mechanism leverages temporal action correlations to minimize the generative transport distance. Evaluations across 56 diverse simulated manipulation tasks demonstrate that a one-step OFP achieves state-of-the-art results, outperforming 100-step diffusion and flow policies while accelerating action generation by over $100\times$. We further integrate OFP into the $π_{0.5}$ model on RoboTwin 2.0, where one-step OFP surpasses the original 10-step policy. These results establish OFP as a practical, scalable solution for highly accurate and low-latency robot control.