MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

📄 arXiv: 2603.16861v1 📥 PDF

作者: Abhay Deshpande, Maya Guru, Rose Hendrix, Snehal Jauhri, Ainaz Eftekhar, Rohun Tripathi, Max Argus, Jordi Salvador, Haoquan Fang, Matthew Wallingford, Wilbert Pumacay, Yejin Kim, Quinn Pfeifer, Ying-Chun Lee, Piper Wolters, Omar Rayyan, Mingtong Zhang, Jiafei Duan, Karen Farley, Winson Han, Eli Vanderbilt, Dieter Fox, Ali Farhadi, Georgia Chalvatzaki, Dhruv Shah, Ranjay Krishna

分类: cs.RO

发布日期: 2026-03-17


💡 一句话要点

MolmoBot:大规模仿真实现机器人零样本操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 零样本迁移 大规模仿真 程序化生成 视觉语言模型

📋 核心要点

  1. 现有机器人学习方法依赖真实数据或微调以实现sim-to-real迁移,成本高昂且泛化性受限。
  2. 本文提出MolmoBot,通过大规模程序化生成的仿真数据训练,实现机器人操作的零样本迁移。
  3. 实验表明,MolmoBot在真实机器人平台上,无需微调即可完成多种操作任务,性能显著优于现有方法。

📝 摘要(中文)

机器人学习领域普遍认为,仅靠仿真是不够的;有效的sim-to-real迁移通常需要至少一些真实世界的数据收集或特定任务的微调,以弥合模拟环境和物理环境之间的差距。本文挑战了这一假设。通过足够大规模和多样化的模拟合成训练数据,证明了零样本迁移到现实世界不仅是可能的,而且对于静态和移动操作都是有效的。本文介绍了MolmoBot-Engine,一个完全开源的流程,用于跨机器人、任务和MolmoSpaces中多样化模拟环境的程序化数据生成。随之发布了MolmoBot-Data,一个包含180万条专家轨迹的数据集,用于铰接物体操作和抓取放置任务。本文训练了三种策略:MolmoBot,一个基于Molmo2的多帧视觉语言模型,带有流匹配动作头;MolmoBot-Pi0,它复制了$π_0$架构以实现直接比较;以及MolmoBot-SPOC,一种轻量级策略,适用于边缘部署并易于RL微调。在两个机器人平台上进行了评估:Franka FR3用于桌面操作任务,Rainbow Robotics RB-Y1移动操作器用于开门、抽屉操作、橱柜交互和移动抓取放置。在没有任何真实世界微调的情况下,策略实现了对未见物体的零样本迁移。在桌面抓取放置任务中,MolmoBot在4个真实世界设置中实现了79.2%的成功率,优于$π_{0.5}$的39.2%。结果表明,程序化环境生成与多样化的铰接资产相结合,可以产生鲁棒的操作策略,并广泛推广到现实世界。

🔬 方法详解

问题定义:现有机器人学习方法在将仿真模型迁移到真实世界时,通常需要大量的真实数据进行微调,以克服仿真环境与真实环境之间的差异。这种微调过程耗时耗力,并且限制了模型对新环境和新物体的泛化能力。因此,如何实现机器人操作的零样本迁移,即在没有真实数据微调的情况下,直接将仿真模型应用于真实世界,是一个重要的挑战。

核心思路:本文的核心思路是通过大规模、多样化的程序化仿真数据训练机器人策略,从而使模型能够学习到足够鲁棒的特征,以应对真实世界中的各种变化。通过构建一个包含各种机器人、任务和环境的仿真平台,并生成大量的训练数据,模型可以学习到通用的操作技能,从而实现零样本迁移。

技术框架:MolmoBot的整体框架包括以下几个主要部分:1) MolmoBot-Engine:一个开源的程序化数据生成流程,用于创建各种机器人、任务和环境的仿真场景。2) MolmoBot-Data:一个包含180万条专家轨迹的数据集,用于训练机器人策略。3) 三种机器人策略:MolmoBot(基于Molmo2的多帧视觉语言模型)、MolmoBot-Pi0(复制$π_0$架构)和MolmoBot-SPOC(轻量级策略)。

关键创新:本文最重要的技术创新在于通过大规模程序化仿真数据训练机器人策略,实现了机器人操作的零样本迁移。与现有方法相比,本文的方法无需真实数据微调,即可在真实机器人平台上实现高性能的操作。此外,本文还提出了MolmoBot-Engine,一个开源的程序化数据生成流程,为机器人学习领域提供了有价值的工具。

关键设计:MolmoBot策略基于Molmo2视觉语言模型,并采用流匹配动作头进行动作预测。MolmoBot-Engine采用程序化生成技术,可以自动创建各种机器人、任务和环境的仿真场景。MolmoBot-Data数据集包含大量的专家轨迹,涵盖了各种铰接物体操作和抓取放置任务。MolmoBot-SPOC是一种轻量级策略,适用于边缘部署,并易于进行强化学习微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MolmoBot在真实世界的桌面抓取放置任务中,成功率达到79.2%,显著优于基线方法$π_{0.5}$的39.2%。该结果表明,通过大规模仿真训练,机器人可以在没有真实数据微调的情况下,实现高性能的操作能力。此外,MolmoBot还在开门、抽屉操作、橱柜交互和移动抓取放置等任务中取得了良好的效果。

🎯 应用场景

MolmoBot的研究成果可广泛应用于工业自动化、家庭服务、医疗机器人等领域。通过零样本迁移能力,机器人能够快速适应新的工作环境和任务需求,降低部署成本和维护难度。未来,该技术有望推动机器人更广泛地应用于各种实际场景,提升生产效率和服务质量。

📄 摘要(原文)

A prevailing view in robot learning is that simulation alone is not enough; effective sim-to-real transfer is widely believed to require at least some real-world data collection or task-specific fine-tuning to bridge the gap between simulated and physical environments. We challenge that assumption. With sufficiently large-scale and diverse simulated synthetic training data, we show that zero-shot transfer to the real world is not only possible, but effective for both static and mobile manipulation. We introduce MolmoBot-Engine, a fully open-source pipeline for procedural data generation across robots, tasks, and diverse simulated environments in MolmoSpaces. With it, we release MolmoBot-Data, a dataset of 1.8 million expert trajectories for articulated object manipulation and pick-and-place tasks. We train three policy classes: MolmoBot, a Molmo2-based multi-frame vision-language model with a flow-matching action head; MolmoBot-Pi0, which replicates the $π_0$ architecture to enable direct comparison; and MolmoBot-SPOC, a lightweight policy suitable for edge deployment and amenable to RL fine-tuning. We evaluate on two robotic platforms: the Franka FR3 for tabletop manipulation tasks and the Rainbow Robotics RB-Y1 mobile manipulator for door opening, drawer manipulation, cabinet interaction, and mobile pick-and-place. Without any real-world fine-tuning, our policies achieve zero-shot transfer to unseen objects and environments. On tabletop pick-and-place, MolmoBot achieves a success rate of 79.2% in real world evaluations across 4 settings, outperforming $π_{0.5}$ at 39.2%. Our results demonstrate that procedural environment generation combined with diverse articulated assets can produce robust manipulation policies that generalize broadly to the real world. Technical Blog: https://allenai.org/blog/molmobot-robot-manipulation