InternData-A1: Pioneering High-Fidelity Synthetic Data for Pre-training Generalist Policy
作者: Yang Tian, Yuyin Yang, Yiman Xie, Zetao Cai, Xu Shi, Ning Gao, Hangxu Liu, Xuekun Jiang, Zherui Qiu, Feng Yuan, Yaping Li, Ping Wang, Junhao Cai, Jia Zeng, Hao Dong, Jiangmiao Pang
分类: cs.RO
发布日期: 2025-11-20
💡 一句话要点
InternData-A1:用于预训练通用策略的高保真合成数据集
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 合成数据 视觉-语言-动作模型 预训练 机器人控制 具身智能 模拟到真实迁移 大规模数据集
📋 核心要点
- 现有VLA模型依赖大规模真实机器人数据,但成本高昂且难以扩展,合成数据潜力未被充分挖掘。
- 提出InternData-A1数据集,通过自主、解耦和可组合的模拟管线生成,实现长时程技能组合和灵活任务组装。
- 实验表明,仅使用InternData-A1预训练的模型性能可与真实数据预训练模型媲美,并具备良好的零样本迁移能力。
📝 摘要(中文)
本文探讨了真实数据和合成数据对视觉-语言-动作(VLA)模型泛化能力的贡献。虽然目前VLA模型已展示了大规模真实机器人预训练的强大有效性,但合成数据此前尚未展示出可比的规模化能力。本文首次证明,仅使用合成数据即可在预训练VLA模型时达到最强$π$-数据集的性能,揭示了大规模模拟的巨大价值。由此产生的模型在多个具有挑战性的任务上也表现出令人惊讶的零样本sim-to-real迁移能力。我们的合成数据集InternData-A1包含超过63万条轨迹和7433小时的数据,涵盖4种机器人形态、18种技能、70个任务和227个场景,覆盖刚性、铰接、可变形和流体对象的操纵。它通过高度自主、完全解耦和可组合的模拟管线生成,能够实现长时程技能组合、灵活的任务组装和具有最小手动调整的异构机器人形态。使用与$π_0$相同的架构,我们完全在InternData-A1上预训练了一个模型,发现它在49个模拟任务、5个真实世界任务和4个长时程灵巧任务中与官方$π_0$相匹配。我们将发布该数据集,并将开源生成管线,以扩大对大规模机器人数据的访问,并降低具身AI研究可扩展数据创建的门槛。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型的预训练主要依赖于真实机器人数据,这面临着数据采集成本高、难以覆盖多样化场景和任务的挑战。合成数据虽然具有成本优势和可控性,但以往的研究未能证明其在大规模预训练中可以达到与真实数据相当的性能。因此,如何利用合成数据有效预训练VLA模型,使其具备良好的泛化能力和sim-to-real迁移能力,是本文要解决的核心问题。
核心思路:本文的核心思路是构建一个大规模、高质量的合成数据集InternData-A1,并通过完全自主、解耦和可组合的模拟管线生成该数据集。这种设计旨在克服以往合成数据在多样性、复杂性和真实性方面的不足,从而使预训练的VLA模型能够学习到更通用的策略,并具备良好的零样本sim-to-real迁移能力。
技术框架:InternData-A1的生成管线主要包含以下几个模块:1) 场景生成模块,用于创建多样化的模拟环境;2) 机器人形态配置模块,支持配置不同类型的机器人;3) 任务定义模块,允许灵活组装各种任务;4) 轨迹生成模块,通过强化学习或其他方法生成机器人执行任务的轨迹。这些模块之间采用解耦设计,可以独立进行优化和组合,从而提高数据生成效率和灵活性。
关键创新:本文最重要的技术创新在于构建了一个高度自主、完全解耦和可组合的模拟管线,用于生成大规模、高质量的合成数据集InternData-A1。与以往的合成数据生成方法相比,该管线能够以更低的成本和更高的效率生成更具多样性和复杂性的数据,从而显著提升了预训练VLA模型的性能。
关键设计:在模拟管线的设计中,采用了模块化和解耦的设计思想,使得各个模块可以独立进行优化和组合。例如,场景生成模块可以采用程序化生成或基于真实场景扫描的方法,机器人形态配置模块可以支持导入不同类型的机器人模型,任务定义模块可以采用自然语言描述或程序化定义的方式。此外,为了提高数据的真实性,还采用了各种渲染技术和物理引擎。
📊 实验亮点
实验结果表明,仅使用InternData-A1预训练的VLA模型在49个模拟任务、5个真实世界任务和4个长时程灵巧任务中与使用真实数据预训练的$π_0$模型性能相当。这证明了大规模合成数据在VLA模型预训练中的有效性,并展示了InternData-A1数据集的价值。
🎯 应用场景
该研究成果可广泛应用于机器人控制、自动化和人工智能等领域。通过使用InternData-A1数据集和开源生成管线,研究人员可以更便捷地进行VLA模型预训练,从而加速机器人在复杂环境中的应用,例如智能制造、家庭服务和医疗辅助等。该研究还有助于降低机器人开发的成本和门槛,促进机器人技术的普及。
📄 摘要(原文)
Recent works explore how real and synthetic data contribute to Vision-Language-Action (VLA) models' generalization. While current VLA models have shown the strong effectiveness of large-scale real-robot pre-training, synthetic data has not previously demonstrated comparable capability at scale. This paper provides the first evidence that synthetic data alone can match the performance of the strongest $π$-dataset in pre-training a VLA model, revealing the substantial value of large-scale simulation. The resulting model also exhibits surprisingly zero-shot sim-to-real transfer on several challenging tasks. Our synthetic dataset, InternData-A1, contains over 630k trajectories and 7,433 hours across 4 embodiments, 18 skills, 70 tasks, and 227 scenes, covering rigid, articulated, deformable, and fluid-object manipulation. It is generated through a highly autonomous, fully decoupled, and compositional simulation pipeline that enables long-horizon skill composition, flexible task assembly, and heterogeneous embodiments with minimal manual tuning. Using the same architecture as $π_0$, we pre-train a model entirely on InternData-A1 and find that it matches the official $π_0$ across 49 simulation tasks, 5 real-world tasks, and 4 long-horizon dexterous tasks. We release the dataset and will open-source the generation pipeline to broaden access to large-scale robotic data and to lower the barrier to scalable data creation for embodied AI research.