GigaBrain-0: A World Model-Powered Vision-Language-Action Model

📄 arXiv: 2510.19430v3 📥 PDF

作者: GigaBrain Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jie Li, Jiagang Zhu, Lv Feng, Peng Li, Qiuping Deng, Runqi Ouyang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yilong Li, Yiran Ding, Yuan Xu, Yun Ye, Yukun Zhou, Zhehao Dong, Zhenan Wang, Zhichao Liu, Zheng Zhu

分类: cs.RO, cs.CV

发布日期: 2025-10-22 (更新: 2025-12-04)

备注: https://gigabrain0.github.io/


💡 一句话要点

GigaBrain-0:基于世界模型赋能的视觉-语言-动作通用机器人模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 世界模型 机器人学习 泛化能力 具身智能

📋 核心要点

  1. 现有VLA模型依赖昂贵的真实机器人数据,限制了模型的可扩展性和泛化能力。
  2. GigaBrain-0利用世界模型生成多样化数据,减少对真实数据的依赖,提升跨任务泛化能力。
  3. 通过RGBD输入和具身CoT监督,增强模型对空间几何和长时依赖的推理能力,提升真实世界性能。

📝 摘要(中文)

本文介绍了GigaBrain-0,一种新型的视觉-语言-动作(VLA)基础模型,该模型利用世界模型生成的数据(例如,视频生成、real2real迁移、人体迁移、视角迁移、sim2real迁移数据)进行训练。通过大规模地利用世界模型生成多样化的数据,GigaBrain-0显著降低了对真实机器人数据的依赖,同时提高了跨任务的泛化能力。该方法还通过RGBD输入建模和具身Chain-of-Thought(CoT)监督来提高策略的鲁棒性,使模型能够在任务执行期间推理空间几何、对象状态和长时依赖关系。这在灵巧、长时程和移动操作任务的真实世界性能方面带来了显著的提升。大量实验表明,GigaBrain-0在外观(例如,纹理、颜色)、对象放置和相机视点的变化方面实现了卓越的泛化能力。此外,本文还介绍了GigaBrain-0-Small,这是一种优化的轻量级变体,旨在在NVIDIA Jetson AGX Orin等设备上高效运行。

🔬 方法详解

问题定义:当前视觉-语言-动作(VLA)模型训练严重依赖于大规模真实机器人数据,而真实数据的采集成本高昂且耗时,这成为了制约VLA模型扩展性和泛化能力的关键瓶颈。现有方法难以应对真实世界中复杂多变的环境和任务需求。

核心思路:GigaBrain-0的核心思路是利用世界模型生成大规模、多样化的合成数据,包括视频生成、real2real迁移、人体迁移、视角迁移、sim2real迁移等,从而显著减少对真实数据的依赖。通过在合成数据上进行预训练,模型可以学习到更通用的视觉和物理规律,从而提升在真实环境中的泛化能力。

技术框架:GigaBrain-0的整体框架包含数据生成模块、模型训练模块和策略执行模块。数据生成模块利用世界模型生成各种类型的合成数据,并对数据进行增强和标注。模型训练模块使用生成的合成数据和少量真实数据对VLA模型进行训练,并采用RGBD输入建模和具身CoT监督来提高模型的鲁棒性和推理能力。策略执行模块将训练好的模型部署到真实机器人上,执行各种操作任务。

关键创新:GigaBrain-0最重要的技术创新在于利用世界模型生成数据来驱动VLA模型的训练。与传统方法相比,该方法可以显著降低对真实数据的依赖,并生成更多样化的训练数据,从而提高模型的泛化能力。此外,RGBD输入建模和具身CoT监督也进一步增强了模型的空间推理和长时依赖建模能力。

关键设计:GigaBrain-0的关键设计包括:1) 使用高质量的世界模型来生成逼真的合成数据;2) 采用RGBD输入来增强模型的空间感知能力;3) 引入具身CoT监督来引导模型进行长时推理;4) 设计高效的模型架构和训练策略,以实现良好的性能和可扩展性。具体参数设置和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GigaBrain-0在灵巧操作、长时程操作和移动操作等真实世界任务中表现出卓越的泛化能力。在外观、对象放置和相机视点变化的情况下,GigaBrain-0均能取得显著优于现有方法的性能。此外,GigaBrain-0-Small在NVIDIA Jetson AGX Orin等设备上实现了高效运行,证明了该模型具有良好的部署潜力。(具体性能数据未知)

🎯 应用场景

GigaBrain-0在通用机器人领域具有广泛的应用前景,可用于开发能够执行各种复杂任务的智能机器人,例如家庭服务机器人、工业自动化机器人、医疗辅助机器人等。该研究有望推动机器人技术的进步,并为人类带来更便捷、高效的生活方式。

📄 摘要(原文)

Training Vision-Language-Action (VLA) models for generalist robots typically requires large-scale real-world robot data, which is expensive and time-consuming to collect. The inefficiency of physical data collection severely limits the scalability, and generalization capacity of current VLA systems. To address this challenge, we introduce GigaBrain-0, a novel VLA foundation model empowered by world model-generated data (e.g., video generation, real2real transfer, human transfer, view transfer, sim2real transfer data). By leveraging world models to generate diverse data at scale, GigaBrain-0 significantly reduces reliance on real robot data while improving cross-task generalization. Our approach further improves policy robustness through RGBD input modeling and embodied Chain-of-Thought (CoT) supervision, enabling the model to reason about spatial geometry, object states, and long-horizon dependencies during task execution. This leads to substantial gains in real-world performance on dexterous, long-horizon, and mobile manipulation tasks. Extensive experiments demonstrate that GigaBrain-0 achieves superior generalization across variations in appearances (e.g., textures, colors), object placements, and camera viewpoints. Additionally, we present GigaBrain-0-Small, an optimized lightweight variant designed to run efficiently on devices such as the NVIDIA Jetson AGX Orin.