MP1: MeanFlow Tames Policy Learning in 1-step for Robotic Manipulation
作者: Juyi Sheng, Ziyi Wang, Peiming Li, Mengyuan Liu
分类: cs.RO
发布日期: 2025-07-14 (更新: 2025-12-03)
备注: This paper has been accepted by AAAI 2026
🔗 代码/项目: GITHUB
💡 一句话要点
MP1:利用MeanFlow一步到位地解决机器人操作中的策略学习问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人操作 策略学习 MeanFlow 生成模型 点云处理 少样本学习 轨迹生成
📋 核心要点
- 现有机器人操作学习方法在生成模型方面存在速度与架构约束的权衡,扩散模型慢而Flow模型受限。
- MP1通过MeanFlow范式,一步到位生成动作轨迹,避免了迭代采样和显式一致性损失,提高了效率和精度。
- 实验表明,MP1在任务成功率和推理速度上均优于现有方法,并在真实场景中验证了其有效性。
📝 摘要(中文)
在机器人操作领域,机器人学习已成为一种主流方法。然而,该领域中的生成模型面临着根本性的权衡:扩散模型采样速度慢、需要迭代,而基于Flow的方法速度更快,但架构上受限,通常依赖于显式的一致性损失。为了解决这些限制,我们提出了MP1,它将3D点云输入与MeanFlow范式相结合,通过一次网络函数评估(1-NFE)生成动作轨迹。通过“MeanFlow恒等式”直接学习区间平均速度,我们的策略避免了任何额外的一致性约束。这种公式消除了推理过程中的数值ODE求解器误差,从而产生更精确的轨迹。MP1进一步结合了CFG(Classifier-Free Guidance),以提高轨迹的可控性,同时保持1-NFE推理,而不会重新引入结构约束。由于细微的场景上下文变化对于机器人学习至关重要,尤其是在少样本学习中,我们引入了一种轻量级的Dispersive Loss,在训练期间排斥状态嵌入,从而在不减慢推理速度的情况下提高泛化能力。我们在Adroit和Meta-World基准测试以及真实场景中验证了我们的方法。实验结果表明,MP1实现了卓越的平均任务成功率,优于DP3 10.2%,优于FlowPolicy 7.3%。它的平均推理时间仅为6.8毫秒,比DP3快19倍,比FlowPolicy快近2倍。我们的项目页面位于https://mp1-2254.github.io/,代码可在https://github.com/LogSSim/MP1访问。
🔬 方法详解
问题定义:机器人操作中的策略学习旨在生成精确的动作轨迹,但现有生成模型(如扩散模型和Flow模型)存在局限性。扩散模型需要迭代采样,速度慢;Flow模型虽然速度快,但架构受限,需要额外的一致性损失来保证轨迹的合理性。这些限制影响了机器人操作的效率和精度。
核心思路:MP1的核心思路是利用MeanFlow范式,直接学习区间平均速度,从而一步到位地生成动作轨迹。通过“MeanFlow恒等式”,避免了迭代采样和显式一致性损失,消除了数值ODE求解器误差,提高了轨迹的精度和效率。
技术框架:MP1的整体框架包括以下几个主要模块:1) 3D点云输入:接收场景的3D点云数据作为输入。2) MeanFlow策略网络:利用MeanFlow范式,根据3D点云输入生成动作轨迹。3) CFG(Classifier-Free Guidance):用于提高轨迹的可控性。4) Dispersive Loss:用于提高模型的泛化能力,尤其是在少样本学习中。
关键创新:MP1最重要的技术创新点在于将MeanFlow范式应用于机器人操作的策略学习中,通过直接学习区间平均速度,避免了迭代采样和显式一致性损失。这与现有方法的本质区别在于,MP1能够以1-NFE(一次网络函数评估)的方式生成动作轨迹,大大提高了推理速度和精度。
关键设计:MP1的关键设计包括:1) MeanFlow恒等式:用于直接学习区间平均速度。2) CFG:通过无分类器指导,提高轨迹的可控性,允许用户指定期望的目标或行为。3) Dispersive Loss:通过排斥状态嵌入,提高模型的泛化能力,尤其是在少样本学习中。该损失函数的设计旨在鼓励模型学习到更具区分性的状态表示,从而更好地适应新的场景和任务。
🖼️ 关键图片
📊 实验亮点
MP1在Adroit和Meta-World基准测试以及真实场景中取得了显著的成果。实验结果表明,MP1的平均任务成功率优于DP3 10.2%,优于FlowPolicy 7.3%。更重要的是,MP1的平均推理时间仅为6.8毫秒,比DP3快19倍,比FlowPolicy快近2倍。这些数据充分证明了MP1在效率和精度方面的优势。
🎯 应用场景
MP1具有广泛的应用前景,可应用于各种机器人操作任务,如抓取、装配、导航等。其高效的推理速度和高精度的轨迹生成能力使其特别适用于实时性要求高的场景,如自动驾驶、工业自动化等。此外,MP1的少样本学习能力使其能够快速适应新的任务和环境,降低了机器人部署的成本。
📄 摘要(原文)
In robot manipulation, robot learning has become a prevailing approach. However, generative models within this field face a fundamental trade-off between the slow, iterative sampling of diffusion models and the architectural constraints of faster Flow-based methods, which often rely on explicit consistency losses. To address these limitations, we introduce MP1, which pairs 3D point-cloud inputs with the MeanFlow paradigm to generate action trajectories in one network function evaluation (1-NFE). By directly learning the interval-averaged velocity via the "MeanFlow Identity", our policy avoids any additional consistency constraints. This formulation eliminates numerical ODE-solver errors during inference, yielding more precise trajectories. MP1 further incorporates CFG for improved trajectory controllability while retaining 1-NFE inference without reintroducing structural constraints. Because subtle scene-context variations are critical for robot learning, especially in few-shot learning, we introduce a lightweight Dispersive Loss that repels state embeddings during training, boosting generalization without slowing inference. We validate our method on the Adroit and Meta-World benchmarks, as well as in real-world scenarios. Experimental results show MP1 achieves superior average task success rates, outperforming DP3 by 10.2% and FlowPolicy by 7.3%. Its average inference time is only 6.8 ms-19x faster than DP3 and nearly 2x faster than FlowPolicy. Our project page is available at https://mp1-2254.github.io/, and the code can be accessed at https://github.com/LogSSim/MP1.