GigaWorld-Policy: An Efficient Action-Centered World--Action Model

📄 arXiv: 2603.17240v1 📥 PDF

作者: Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Hengtao Li, Jie Li, Jindi Lv, Jingyu Liu, Min Cao, Peng Li, Qiuping Deng, Wenjun Mei, Xiaofeng Wang, Xinze Chen, Xinyu Zhou, Yang Wang, Yifan Chang, Yifan Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu

分类: cs.CV

发布日期: 2026-03-18


💡 一句话要点

GigaWorld-Policy:一种高效的以动作为中心的World-Action模型,加速机器人策略学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: World-Action模型 机器人策略学习 视频生成 动作预测 因果建模 高效推理 机器人控制

📋 核心要点

  1. 现有World-Action模型在机器人策略学习中面临推理开销大和视觉-运动表征纠缠的挑战,限制了性能和部署。
  2. GigaWorld-Policy提出以动作为中心的WAM,通过预测未来动作序列和生成未来视频,实现高效动作解码和策略学习。
  3. 实验表明,GigaWorld-Policy在真实机器人平台上运行速度提升9倍,任务成功率提升7%,并在RoboTwin 2.0上性能提升95%。

📝 摘要(中文)

本文提出GigaWorld-Policy,一种以动作为中心的World-Action模型(WAM),旨在解决现有方法在机器人策略学习中推理开销大和视觉-运动表征纠缠的问题。该方法学习2D像素-动作动态,实现高效的动作解码,并可选择性地进行视频生成。策略训练分为两个耦合部分:模型预测未来动作序列,同时生成未来视频。策略通过动作预测和视频生成进行监督,提供更丰富的学习信号,并通过视觉动态约束鼓励物理上合理的动作。通过因果设计,在推理时可选择性地关闭未来视频生成,从而加速动作预测。为了支持该范式,本文构建了一个大规模机器人数据集,用于预训练以动作为中心的视频生成模型,并将其作为机器人策略学习的骨干网络。实验结果表明,GigaWorld-Policy比领先的WAM基线Motus快9倍,任务成功率提高7%。与pi-0.5相比,在RoboTwin 2.0上性能提高95%。

🔬 方法详解

问题定义:现有基于预训练视频生成骨干网络的World-Action模型(WAM)在机器人策略学习中展现出潜力,但存在两个主要问题:一是联合推理未来视觉动态和相应动作导致推理开销巨大;二是联合建模容易将视觉和运动表征纠缠在一起,使得运动预测精度严重依赖于未来视频预测的质量。

核心思路:GigaWorld-Policy的核心思路是以动作为中心,将策略训练分解为两个耦合的组件:动作预测和视频生成。模型首先预测未来动作序列,然后基于预测的动作和当前观测生成未来视频。通过动作预测和视频生成双重监督,提供更丰富的学习信号,并利用视觉动态约束鼓励物理上合理的动作。

技术框架:GigaWorld-Policy的整体框架包含两个主要模块:动作预测模块和视频生成模块。动作预测模块基于当前观测预测未来动作序列。视频生成模块基于当前观测和预测的动作序列生成未来视频。这两个模块通过共享的预训练视频生成模型进行初始化,并通过联合训练进行优化。在推理阶段,可以选择性地关闭视频生成模块,以加速动作预测。

关键创新:GigaWorld-Policy的关键创新在于以动作为中心的设计,将动作预测和视频生成解耦,从而避免了视觉和运动表征的纠缠。此外,通过因果设计,防止未来视频token影响动作token,使得在推理时可以灵活地选择是否生成未来视频,从而在性能和效率之间取得平衡。

关键设计:GigaWorld-Policy的关键设计包括:1) 使用大规模机器人数据集预训练以动作为中心的视频生成模型;2) 使用动作预测和视频生成双重损失函数进行策略训练;3) 使用因果注意力机制防止未来视频token影响动作token;4) 在推理时,可以选择性地关闭视频生成模块,以加速动作预测。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GigaWorld-Policy在真实机器人平台上进行了实验验证,结果表明,相比于领先的WAM基线Motus,GigaWorld-Policy的运行速度提升了9倍,任务成功率提高了7%。此外,在RoboTwin 2.0数据集上,GigaWorld-Policy的性能比pi-0.5提高了95%,充分证明了该方法的有效性和优越性。

🎯 应用场景

GigaWorld-Policy在机器人控制领域具有广泛的应用前景,例如:自动驾驶、工业机器人、家庭服务机器人等。该方法可以提高机器人在复杂环境中的决策能力和运动控制精度,降低部署成本,加速机器人智能化进程。未来,该研究可以进一步扩展到多智能体协作、强化学习等领域。

📄 摘要(原文)

World-Action Models (WAM) initialized from pre-trained video generation backbones have demonstrated remarkable potential for robot policy learning. However, existing approaches face two critical bottlenecks that hinder performance and deployment. First, jointly reasoning over future visual dynamics and corresponding actions incurs substantial inference overhead. Second, joint modeling often entangles visual and motion representations, making motion prediction accuracy heavily dependent on the quality of future video forecasts. To address these issues, we introduce GigaWorld-Policy, an action-centered WAM that learns 2D pixel-action dynamics while enabling efficient action decoding, with optional video generation. Specifically, we formulate policy training into two coupled components: the model predicts future action sequences conditioned on the current observation, and simultaneously generates future videos conditioned on the predicted actions and the same observation. The policy is supervised by both action prediction and video generation, providing richer learning signals and encouraging physically plausible actions through visual-dynamics constraints. With a causal design that prevents future-video tokens from influencing action tokens, explicit future-video generation is optional at inference time, allowing faster action prediction during deployment. To support this paradigm, we curate a diverse, large-scale robot dataset to pre-train an action-centered video generation model, which is then adapted as the backbone for robot policy learning. Experimental results on real-world robotic platforms show that GigaWorld-Policy runs 9x faster than the leading WAM baseline, Motus, while improving task success rates by 7%. Moreover, compared with pi-0.5, GigaWorld-Policy improves performance by 95% on RoboTwin 2.0.