ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training
作者: Ge Yan, Jiyue Zhu, Yuquan Deng, Shiqi Yang, Ri-Zhao Qiu, Xuxin Cheng, Marius Memmel, Ranjay Krishna, Ankit Goyal, Xiaolong Wang, Dieter Fox
分类: cs.RO
发布日期: 2025-09-01
💡 一句话要点
ManiFlow:基于一致性流训练的通用机器人操作策略
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人操作 模仿学习 流匹配 扩散模型 Transformer 多模态融合 一致性训练
📋 核心要点
- 现有机器人操作策略难以处理高维动作空间和多模态输入,限制了其通用性和灵巧性。
- ManiFlow利用流匹配和一致性训练,实现快速高质量的动作生成,并提出DiT-X架构有效融合多模态信息。
- 实验表明,ManiFlow在模拟和真实环境中均显著提升了机器人操作的成功率,并展现出良好的泛化能力。
📝 摘要(中文)
本文介绍了一种名为ManiFlow的视觉运动模仿学习策略,用于通用机器人操作。该策略能够根据视觉、语言和本体感受等多种输入生成精确的高维动作。我们利用流匹配和一致性训练,仅需1-2步推理即可实现高质量的灵巧动作生成。为了有效处理多样化的输入模态,我们提出了DiT-X,一种具有自适应交叉注意力和AdaLN-Zero条件化的扩散Transformer架构,能够实现动作token和多模态观测之间细粒度的特征交互。ManiFlow在各种模拟基准测试中表现出持续的改进,并在单臂、双臂和人形机器人设置的真实世界任务中,成功率几乎翻倍,且灵巧性不断提高。广泛的评估进一步证明了ManiFlow对新颖物体和背景变化的强大鲁棒性和泛化能力,并突出了其随着更大规模数据集的强大扩展能力。项目网站:maniflow-policy.github.io。
🔬 方法详解
问题定义:现有机器人操作策略在处理复杂任务时面临挑战,主要体现在以下几个方面:一是难以生成精确的高维动作,尤其是在灵巧操作任务中;二是难以有效融合来自视觉、语言和本体感受等多种模态的信息;三是泛化能力不足,难以适应新颖的物体和环境变化。这些问题限制了机器人操作策略的通用性和实用性。
核心思路:ManiFlow的核心思路是利用流匹配和一致性训练来解决上述问题。流匹配能够学习数据分布之间的平滑映射,从而生成高质量的动作。一致性训练则通过约束模型在不同时间步的输出一致性,提高模型的鲁棒性和泛化能力。此外,ManiFlow还设计了一种新的扩散Transformer架构DiT-X,用于有效融合多模态输入。
技术框架:ManiFlow的整体框架包括以下几个主要模块:1) 多模态输入编码器:用于将视觉、语言和本体感受等多种输入编码成统一的特征表示;2) DiT-X扩散Transformer:用于根据编码后的特征生成动作序列;3) 流匹配和一致性训练模块:用于训练DiT-X模型,使其能够生成高质量的动作并具有良好的泛化能力。训练过程包括前向扩散过程和反向生成过程,通过最小化流匹配损失和一致性损失来优化模型参数。
关键创新:ManiFlow的关键创新点在于以下几个方面:一是将流匹配和一致性训练应用于机器人操作策略,提高了动作生成的质量和鲁棒性;二是提出了DiT-X扩散Transformer架构,能够有效融合多模态输入,并实现动作token和多模态观测之间细粒度的特征交互;三是在多种模拟和真实环境的机器人操作任务中进行了广泛的评估,验证了ManiFlow的有效性和泛化能力。
关键设计:DiT-X架构的关键设计包括:1) 自适应交叉注意力机制:用于动态调整不同模态输入之间的权重;2) AdaLN-Zero条件化:用于在Transformer的每一层中对特征进行归一化和缩放,提高模型的稳定性和收敛速度;3) 损失函数:包括流匹配损失和一致性损失,用于约束模型生成高质量的动作并具有良好的泛化能力。具体的参数设置和网络结构细节可以在论文的补充材料中找到。
🖼️ 关键图片
📊 实验亮点
ManiFlow在多个模拟和真实环境的机器人操作任务中取得了显著的成果。在真实世界任务中,ManiFlow在单臂、双臂和人形机器人设置中,成功率几乎翻倍,且灵巧性不断提高。此外,ManiFlow还展现出对新颖物体和背景变化的强大鲁棒性和泛化能力,并具有随着更大规模数据集的强大扩展能力。
🎯 应用场景
ManiFlow具有广泛的应用前景,可应用于工业自动化、家庭服务、医疗康复等领域。例如,在工业自动化中,ManiFlow可以用于控制机器人完成复杂的装配和搬运任务;在家庭服务中,可以用于帮助老年人和残疾人完成日常生活中的各种操作;在医疗康复中,可以用于辅助医生进行手术和康复训练。ManiFlow的通用性和灵巧性使其能够适应各种不同的应用场景,具有重要的实际价值和未来影响。
📄 摘要(原文)
This paper introduces ManiFlow, a visuomotor imitation learning policy for general robot manipulation that generates precise, high-dimensional actions conditioned on diverse visual, language and proprioceptive inputs. We leverage flow matching with consistency training to enable high-quality dexterous action generation in just 1-2 inference steps. To handle diverse input modalities efficiently, we propose DiT-X, a diffusion transformer architecture with adaptive cross-attention and AdaLN-Zero conditioning that enables fine-grained feature interactions between action tokens and multi-modal observations. ManiFlow demonstrates consistent improvements across diverse simulation benchmarks and nearly doubles success rates on real-world tasks across single-arm, bimanual, and humanoid robot setups with increasing dexterity. The extensive evaluation further demonstrates the strong robustness and generalizability of ManiFlow to novel objects and background changes, and highlights its strong scaling capability with larger-scale datasets. Our website: maniflow-policy.github.io.