AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

📄 arXiv: 2503.06669v4 📥 PDF

作者: AgiBot-World-Contributors, Qingwen Bu, Jisong Cai, Li Chen, Xiuqi Cui, Yan Ding, Siyuan Feng, Shenyuan Gao, Xindong He, Xuan Hu, Xu Huang, Shu Jiang, Yuxin Jiang, Cheng Jing, Hongyang Li, Jialu Li, Chiming Liu, Yi Liu, Yuxiang Lu, Jianlan Luo, Ping Luo, Yao Mu, Yuehan Niu, Yixuan Pan, Jiangmiao Pang, Yu Qiao, Guanghui Ren, Cheng Ruan, Jiaqi Shan, Yongjian Shen, Chengshi Shi, Mingkang Shi, Modi Shi, Chonghao Sima, Jianheng Song, Huijie Wang, Wenhao Wang, Dafeng Wei, Chengen Xie, Guo Xu, Junchi Yan, Cunbiao Yang, Lei Yang, Shukai Yang, Maoqing Yao, Jia Zeng, Chi Zhang, Qinglin Zhang, Bin Zhao, Chengyue Zhao, Jiaqi Zhao, Jianchao Zhu

分类: cs.RO, cs.CV, cs.LG

发布日期: 2025-03-09 (更新: 2025-08-04)

备注: Project website: https://agibot-world.com/. Github repo: https://github.com/OpenDriveLab/AgiBot-World. The author list is ordered alphabetically by surname, with detailed contributions provided in the appendix


💡 一句话要点

AgiBot World Colosseo:用于可扩展智能具身系统的大规模操作平台

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 机器人操作 大规模数据集 通用策略 具身智能 强化学习 灵巧操作 长时程任务

📋 核心要点

  1. 现有机器人操作数据集规模有限,难以支持通用机器人操作技能的学习和泛化。
  2. 提出AgiBot World,一个包含百万级轨迹的大规模机器人操作平台,并设计通用策略GO-1。
  3. GO-1在AgiBot World上预训练后,在真实世界的灵巧操作和长时程任务中显著优于现有方法。

📝 摘要(中文)

本文介绍AgiBot World,一个大规模机器人平台,包含超过100万条轨迹,涵盖五个部署场景中的217个任务,数据规模比现有数据集高出一个数量级。通过标准化的人工验证收集流程加速,AgiBot World保证了高质量和多样化的数据分布。该平台可从夹爪扩展到灵巧手和视觉触觉传感器,用于细粒度的技能学习。基于这些数据,我们提出了Genie Operator-1 (GO-1),一种新颖的通用策略,利用潜在动作表示来最大化数据利用率,并展示了性能随数据量增加的可预测扩展性。在我们的数据集上预训练的策略,在领域内和领域外场景中,性能比在Open X-Embodiment上训练的策略平均提高了30%。GO-1在现实世界的灵巧操作和长时程任务中表现出卓越的能力,在复杂任务中实现了超过60%的成功率,并且优于先前的RDT方法32%。通过开源数据集、工具和模型,我们旨在普及大规模、高质量机器人数据的访问,从而推进可扩展和通用智能的研究。

🔬 方法详解

问题定义:现有机器人操作数据集规模不足,数据质量和多样性受限,难以训练出能够泛化到不同任务和环境的通用机器人操作策略。现有方法在复杂、长时程任务中的表现仍然不佳。

核心思路:通过构建大规模、高质量、多样化的机器人操作数据集AgiBot World,并设计一种能够有效利用这些数据的通用策略GO-1,从而提升机器人操作的泛化能力和在复杂任务中的表现。核心在于数据规模和数据质量,以及策略对数据的有效利用。

技术框架:AgiBot World平台包含数据收集、数据验证和数据管理三个主要模块。数据收集通过标准化流程和人工验证保证数据质量。GO-1策略采用潜在动作表示,利用Transformer架构进行序列建模,从而实现对大规模数据的有效利用。整体流程为:数据收集 -> 数据预处理 -> GO-1策略训练 -> 策略评估和部署。

关键创新:AgiBot World数据集的规模和多样性是关键创新,提供了前所未有的训练数据量。GO-1策略通过潜在动作表示,能够更好地学习和泛化不同任务之间的共性。此外,该工作开源了数据集、工具和模型,促进了研究社区的合作和发展。

关键设计:AgiBot World数据集包含217个任务,涵盖五个部署场景。数据收集采用人工验证流程,确保数据质量。GO-1策略使用Transformer架构,并采用对比学习损失函数来学习潜在动作表示。具体参数设置未知,但强调了数据规模对性能提升的重要性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GO-1策略在AgiBot World数据集上预训练后,在领域内和领域外场景中,性能比在Open X-Embodiment上训练的策略平均提高了30%。在真实世界的灵巧操作和长时程任务中,GO-1实现了超过60%的成功率,并且优于先前的RDT方法32%。这些结果表明,大规模数据和有效的策略设计能够显著提升机器人操作的性能。

🎯 应用场景

该研究成果可应用于各种需要机器人操作的场景,例如智能制造、家庭服务、医疗辅助等。通过训练通用机器人操作策略,可以降低机器人部署和使用的成本,提高机器人的智能化水平,使其能够更好地适应复杂和动态的环境。未来,该技术有望推动机器人技术在更广泛领域的应用。

📄 摘要(原文)

We explore how scalable robot data can address real-world challenges for generalized robotic manipulation. Introducing AgiBot World, a large-scale platform comprising over 1 million trajectories across 217 tasks in five deployment scenarios, we achieve an order-of-magnitude increase in data scale compared to existing datasets. Accelerated by a standardized collection pipeline with human-in-the-loop verification, AgiBot World guarantees high-quality and diverse data distribution. It is extensible from grippers to dexterous hands and visuo-tactile sensors for fine-grained skill acquisition. Building on top of data, we introduce Genie Operator-1 (GO-1), a novel generalist policy that leverages latent action representations to maximize data utilization, demonstrating predictable performance scaling with increased data volume. Policies pre-trained on our dataset achieve an average performance improvement of 30% over those trained on Open X-Embodiment, both in in-domain and out-of-distribution scenarios. GO-1 exhibits exceptional capability in real-world dexterous and long-horizon tasks, achieving over 60% success rate on complex tasks and outperforming prior RDT approach by 32%. By open-sourcing the dataset, tools, and models, we aim to democratize access to large-scale, high-quality robot data, advancing the pursuit of scalable and general-purpose intelligence.