GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning
作者: GigaBrain Team, Boyuan Wang, Bohan Li, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Jie Li, Jindi Lv, Jingyu Liu, Lv Feng, Mingming Yu, Peng Li, Qiuping Deng, Tianze Liu, Xinyu Zhou, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yifei Nie, Yilong Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu
分类: cs.CV
发布日期: 2026-02-28
💡 一句话要点
GigaBrain-0.5M*:一种基于世界模型的强化学习VLA模型,提升机器人操作性能。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作模型 世界模型 强化学习 机器人操作 长程规划
📋 核心要点
- 现有VLA模型在复杂操作任务中,由于场景理解和未来预测能力不足,难以实现长程规划和稳定执行。
- GigaBrain-0.5M*利用预训练的世界模型进行强化学习,通过RAMP策略学习,提升模型对未来状态的预测和规划能力。
- 实验表明,GigaBrain-0.5M*在多个复杂机器人操作任务上显著优于基线方法,并展现出可靠的长程执行能力。
📝 摘要(中文)
本文提出了GigaBrain-0.5M,一种基于世界模型的强化学习视觉-语言-动作(VLA)模型。直接从当前观测预测多步动作块的VLA模型,由于场景理解和未来预测能力的限制,存在固有缺陷。相比之下,在网络规模视频语料库上预训练的视频世界模型展现出强大的时空推理和准确的未来预测能力,使其成为增强VLA学习的理想基础。GigaBrain-0.5M建立在GigaBrain-0.5之上,后者已在超过10000小时的机器人操作数据上进行了预训练,并且其中间版本目前在国际RoboChallenge基准测试中排名第一。GigaBrain-0.5M通过RAMP(Reinforcement leArning via world Model-conditioned Policy)进一步集成了基于世界模型的强化学习,以实现强大的跨任务适应性。实验结果表明,RAMP在包括洗衣折叠、盒子包装和浓缩咖啡制作等具有挑战性的任务上,相对于RECAP基线实现了显著的性能提升,提升幅度约为30%。GigaBrain-0.5M表现出可靠的长程执行能力,能够持续完成复杂的操纵任务,项目页面上的真实部署视频验证了这一点。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型在机器人操作任务中,直接从当前观测预测多步动作,但由于缺乏对场景的深入理解和对未来状态的准确预测,难以处理需要长程规划和复杂交互的任务。现有方法难以有效利用大规模无监督视频数据中蕴含的时空信息,导致泛化能力受限。
核心思路:本文的核心思路是利用预训练的视频世界模型来增强VLA模型的性能。世界模型能够学习到环境的动态特性和未来状态的预测,从而为VLA模型提供更强的时空推理能力和未来预测能力。通过将世界模型与强化学习相结合,可以引导VLA模型学习更有效的策略,从而实现更好的跨任务适应性和长程执行能力。
技术框架:GigaBrain-0.5M*的技术框架主要包括以下几个部分:1) 基于大规模机器人操作数据预训练的GigaBrain-0.5模型,作为VLA模型的基础;2) 视频世界模型,用于学习环境的动态特性和未来状态的预测;3) RAMP(Reinforcement leArning via world Model-conditioned Policy)算法,将世界模型与强化学习相结合,用于训练VLA模型的策略。整体流程是,首先利用GigaBrain-0.5模型提取视觉特征,然后利用世界模型预测未来状态,最后利用RAMP算法训练VLA模型的策略,使其能够根据当前观测和未来预测,生成合适的动作序列。
关键创新:本文最重要的技术创新点在于将世界模型与强化学习相结合,提出了RAMP算法。RAMP算法能够有效地利用世界模型提供的未来状态预测信息,引导VLA模型学习更有效的策略。与传统的强化学习方法相比,RAMP算法能够更好地处理需要长程规划和复杂交互的任务,并且具有更强的跨任务适应性。
关键设计:RAMP算法的关键设计包括:1) 使用世界模型预测未来状态的奖励;2) 使用世界模型预测未来状态的策略梯度;3) 使用世界模型预测未来状态的价值函数。这些设计能够有效地利用世界模型提供的未来状态预测信息,引导VLA模型学习更有效的策略。具体的参数设置和网络结构等技术细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GigaBrain-0.5M在洗衣折叠、盒子包装和浓缩咖啡制作等具有挑战性的任务上,相对于RECAP基线实现了显著的性能提升,提升幅度约为30%。此外,GigaBrain-0.5M还展现出可靠的长程执行能力,能够持续完成复杂的操纵任务。
🎯 应用场景
该研究成果可广泛应用于机器人自动化领域,例如智能家居、工业自动化、医疗机器人等。通过提升机器人对复杂环境的理解和操作能力,可以实现更智能、更高效的自动化生产和服务,具有重要的实际应用价值和广阔的未来发展前景。
📄 摘要(原文)
Vision-language-action (VLA) models that directly predict multi-step action chunks from current observations face inherent limitations due to constrained scene understanding and weak future anticipation capabilities. In contrast, video world models pre-trained on web-scale video corpora exhibit robust spatiotemporal reasoning and accurate future prediction, making them a natural foundation for enhancing VLA learning. Therefore, we propose \textit{GigaBrain-0.5M}, a VLA model trained via world model-based reinforcement learning. Built upon \textit{GigaBrain-0.5}, which is pre-trained on over 10,000 hours of robotic manipulation data, whose intermediate version currently ranks first on the international RoboChallenge benchmark. \textit{GigaBrain-0.5M} further integrates world model-based reinforcement learning via \textit{RAMP} (Reinforcement leArning via world Model-conditioned Policy) to enable robust cross-task adaptation. Empirical results demonstrate that \textit{RAMP} achieves substantial performance gains over the RECAP baseline, yielding improvements of approximately 30\% on challenging tasks including \texttt{Laundry Folding}, \texttt{Box Packing}, and \texttt{Espresso Preparation}. Critically, \textit{GigaBrain-0.5M$^*$} exhibits reliable long-horizon execution, consistently accomplishing complex manipulation tasks without failure as validated by real-world deployment videos on our \href{this https URL}{project page}.