Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation
作者: Cong Tai, Zhaoyu Zheng, Haixu Long, Hansheng Wu, Zhengbin Long, Haodong Xiang, Rong Shi, Zhuo Cui, Shizhuang Zhang, Gang Qiu, He Wang, Ruifeng Li, Biao Liu, Zhenzhe Sun, Tao Shen
分类: cs.RO
发布日期: 2026-03-09
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
Seed2Scale:通过小模型收集、大模型评估实现具身智能的自进化数据引擎
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 自进化学习 数据增强 视觉-语言模型 机器人控制
📋 核心要点
- 现有具身智能数据生成方法面临探索受限、具身性差距和低信噪比等问题,阻碍了模型性能的提升。
- Seed2Scale提出一种自进化数据引擎,通过小模型收集、大模型评估和目标模型学习的协同,解决数据瓶颈。
- 实验表明,Seed2Scale能显著提升目标模型的成功率,性能提升达131.2%,优于现有数据增强方法。
📝 摘要(中文)
现有的数据生成方法存在探索范围受限、具身性差距以及信噪比低等问题,导致自迭代过程中性能下降。为了解决这些挑战,我们提出了Seed2Scale,一种自进化数据引擎,通过“小模型收集、大模型评估和目标模型学习”的异构协同来克服数据瓶颈。该引擎从最少四个种子演示开始,采用轻量级的视觉-语言-动作模型SuperTiny作为专用收集器,利用其强大的归纳偏置在并行环境中进行鲁棒探索。同时,集成预训练的视觉-语言模型作为验证器,自主执行成功/失败判断并对生成的大量轨迹进行质量评分。Seed2Scale有效地缓解了模型崩溃,确保了自进化过程的稳定性。实验结果表明,Seed2Scale表现出显著的扩展潜力:随着迭代的进行,目标模型的成功率呈现出稳健的上升趋势,实现了131.2%的性能提升。此外,Seed2Scale显著优于现有的数据增强方法,为通用具身智能的大规模发展提供了一条可扩展且经济高效的途径。
🔬 方法详解
问题定义:论文旨在解决具身智能领域中数据生成效率低、质量差的问题。现有方法通常面临探索范围有限,难以覆盖复杂环境;生成的轨迹与真实环境存在差距,导致模型泛化能力不足;以及数据中噪声过多,影响模型学习效率等痛点。这些问题限制了具身智能模型的大规模发展。
核心思路:Seed2Scale的核心思路是利用小模型进行高效探索,大模型进行质量评估,从而构建一个自进化的数据生成闭环。小模型具有更强的探索能力和鲁棒性,可以生成大量候选数据;大模型具有更强的理解能力和判断能力,可以对数据进行筛选和评分,保证数据质量;目标模型则从高质量数据中学习,不断提升自身性能。通过这种协同机制,Seed2Scale能够克服现有方法的局限性,实现数据的高效生成和模型的持续提升。
技术框架:Seed2Scale的整体框架包含三个主要模块:1) 小模型收集器 (SuperTiny):负责在并行环境中进行探索,生成大量的轨迹数据。2) 大模型验证器 (Verifier):负责对收集到的轨迹数据进行评估,判断成功/失败,并给出质量评分。3) 目标模型学习器:负责从经过筛选和评分的高质量数据中学习,提升自身性能。整个流程是一个自迭代的过程,目标模型的性能提升会反过来促进小模型收集器生成更高质量的数据,从而形成一个正反馈循环。
关键创新:Seed2Scale的关键创新在于其异构模型的协同机制。不同于以往单一模型进行数据生成的方法,Seed2Scale充分利用了小模型和大模型的优势,实现了数据生成效率和质量的平衡。小模型负责探索,降低了计算成本;大模型负责评估,保证了数据质量。这种协同机制有效地解决了现有方法中存在的探索受限和信噪比低的问题。
关键设计:SuperTiny模型是一个轻量级的视觉-语言-动作模型,其网络结构和参数设置旨在保证其在复杂环境中的鲁棒性和探索能力。Verifier模型通常是一个预训练的视觉-语言模型,例如CLIP,通过微调或直接使用其zero-shot能力来评估轨迹的质量。目标模型的训练采用标准的强化学习或模仿学习算法,损失函数根据具体的任务进行设计。关键的设计在于Verifier的评分机制,需要能够准确反映轨迹的成功程度和质量,从而引导目标模型的学习。
🖼️ 关键图片
📊 实验亮点
Seed2Scale在实验中表现出显著的性能提升,目标模型的成功率提升了131.2%。与现有数据增强方法相比,Seed2Scale能够生成更高质量的数据,从而实现更好的模型性能。实验结果表明,Seed2Scale具有良好的扩展性,能够随着迭代的进行不断提升模型性能,为大规模具身智能的开发提供了一种有效的解决方案。
🎯 应用场景
Seed2Scale在机器人控制、自动驾驶、游戏AI等领域具有广泛的应用前景。它可以用于生成高质量的训练数据,降低对人工标注的依赖,加速模型的开发和部署。此外,Seed2Scale的自进化特性使其能够适应不断变化的环境和任务需求,为通用具身智能的实现提供了一种可行的途径。该方法有望推动机器人和AI技术在实际场景中的应用。
📄 摘要(原文)
Existing data generation methods suffer from exploration limits, embodiment gaps, and low signal-to-noise ratios, leading to performance degradation during self-iteration. To address these challenges, we propose Seed2Scale, a self-evolving data engine that overcomes the data bottleneck through a heterogeneous synergy of "small-model collection, large-model evaluation, and target-model learning". Starting with as few as four seed demonstrations, the engine employs the lightweight Vision-Language-Action model, SuperTiny, as a dedicated collector, leveraging its strong inductive bias for robust exploration in parallel environments. Concurrently, a pre-trained Vision-Language Model is integrated as a Verifer to autonomously perform success/failure judgment and quality scoring for the massive generated trajectories. Seed2Scale effectively mitigates model collapse, ensuring the stability of the self-evolution process. Experimental results demonstrate that Seed2Scale exhibits signifcant scaling potential: as iterations progress, the success rate of the target model shows a robust upward trend, achieving a performance improvement of 131.2%. Furthermore, Seed2Scale signifcantly outperforms existing data augmentation methods, providing a scalable and cost-effective pathway for the large-scale development of Generalist Embodied AI. Project page: https://terminators2025.github.io/Seed2Scale.github.io