World Simulation with Video Foundation Models for Physical AI

📄 arXiv: 2511.00062v1 📥 PDF

作者: NVIDIA, :, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2025-10-28

🔗 代码/项目: GITHUB | GITHUB


💡 一句话要点

NVIDIA发布Cosmos-Predict2.5,用于物理AI的世界模拟,实现高质量视频生成和指令对齐。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界模型 视频生成 物理AI 具身智能 Sim2Real 多模态学习 流模型 强化学习

📋 核心要点

  1. 现有物理AI世界模拟方法在视频质量、指令对齐和数据生成方面存在局限性,难以满足机器人和自主系统的需求。
  2. Cosmos-Predict2.5通过流式架构统一多模态生成,并结合Cosmos-Reason1实现更精确的文本控制,提升模拟真实感。
  3. 实验表明,Cosmos-Predict2.5在视频质量和指令对齐方面显著优于Cosmos-Predict1,并提供更高效的Sim2Real转换。

📝 摘要(中文)

本文介绍了Cosmos-Predict2.5,这是用于物理AI的Cosmos世界基础模型的最新一代。Cosmos-Predict2.5基于流式架构,在一个模型中统一了Text2World、Image2World和Video2World生成,并利用物理AI视觉语言模型Cosmos-Reason1来提供更丰富的文本基础和对世界模拟的更精细控制。Cosmos-Predict2.5在2亿个精选视频片段上进行训练,并通过基于强化学习的后训练进行优化,在视频质量和指令对齐方面比Cosmos-Predict1有了显著改进,并发布了2B和14B规模的模型。这些能力为机器人和自主系统实现了更可靠的合成数据生成、策略评估和闭环模拟。此外,本文还扩展了Cosmos-Transfer2.5,这是一个用于Sim2Real和Real2Real世界转换的control-net风格框架。尽管比Cosmos-Transfer1小3.5倍,但它提供了更高的保真度和鲁棒的长程视频生成。这些进展共同确立了Cosmos-Predict2.5和Cosmos-Transfer2.5作为扩展具身智能的多功能工具。为了加速物理AI的研究和部署,我们在NVIDIA Open Model License下发布了源代码、预训练检查点和精选基准。

🔬 方法详解

问题定义:论文旨在解决物理AI领域中世界模拟的真实性和可控性问题。现有方法在生成高质量、与指令对齐的视频方面存在挑战,限制了其在机器人和自主系统中的应用。此外,Sim2Real的转换效率和保真度也是一个痛点。

核心思路:论文的核心思路是利用大规模视频数据训练一个统一的多模态世界模型,并结合视觉语言模型来增强文本指令的理解和控制能力。通过流式架构实现高效的视频生成,并采用强化学习进行后训练以提升视频质量和指令对齐。对于Sim2Real转换,采用control-net风格的框架,以更小的模型实现更高的保真度。

技术框架:Cosmos-Predict2.5的整体框架包含以下几个主要模块:1) 基于流式架构的视频生成模型,用于Text2World、Image2World和Video2World的统一生成;2) Cosmos-Reason1视觉语言模型,用于提供更丰富的文本基础和对世界模拟的精细控制;3) 基于强化学习的后训练模块,用于提升视频质量和指令对齐;4) Cosmos-Transfer2.5,一个control-net风格的框架,用于Sim2Real和Real2Real世界转换。

关键创新:论文的关键创新在于:1) 统一的多模态世界模型,能够处理文本、图像和视频输入,实现更灵活的世界模拟;2) 结合视觉语言模型,增强了文本指令的理解和控制能力,使得生成的视频更符合用户的意图;3) 采用流式架构和强化学习,提升了视频生成的效率和质量;4) 提出了control-net风格的Sim2Real转换框架,以更小的模型实现了更高的保真度。

关键设计:Cosmos-Predict2.5的关键设计包括:1) 流式架构的具体实现细节,例如使用的流函数类型和网络结构;2) Cosmos-Reason1的集成方式,例如如何将视觉语言模型的输出融入到视频生成过程中;3) 强化学习的奖励函数设计,如何引导模型生成高质量、与指令对齐的视频;4) Cosmos-Transfer2.5中control-net的具体结构和训练方法,如何保证Sim2Real转换的保真度。

🖼️ 关键图片

img_0

📊 实验亮点

Cosmos-Predict2.5在视频质量和指令对齐方面取得了显著提升,优于Cosmos-Predict1。Cosmos-Transfer2.5虽然模型尺寸缩小了3.5倍,但提供了更高的保真度和鲁棒的长程视频生成。论文开源了源代码、预训练模型和基准测试,为物理AI领域的研究和应用提供了便利。

🎯 应用场景

该研究成果可广泛应用于机器人、自动驾驶、游戏开发、虚拟现实等领域。通过生成高质量的合成数据,可以加速机器人和自动驾驶系统的训练和测试。在游戏开发和虚拟现实中,可以创建更逼真的虚拟环境和交互体验。此外,该技术还可以用于数据增强、视频编辑和内容创作等。

📄 摘要(原文)

We introduce [Cosmos-Predict2.5], the latest generation of the Cosmos World Foundation Models for Physical AI. Built on a flow-based architecture, [Cosmos-Predict2.5] unifies Text2World, Image2World, and Video2World generation in a single model and leverages [Cosmos-Reason1], a Physical AI vision-language model, to provide richer text grounding and finer control of world simulation. Trained on 200M curated video clips and refined with reinforcement learning-based post-training, [Cosmos-Predict2.5] achieves substantial improvements over [Cosmos-Predict1] in video quality and instruction alignment, with models released at 2B and 14B scales. These capabilities enable more reliable synthetic data generation, policy evaluation, and closed-loop simulation for robotics and autonomous systems. We further extend the family with [Cosmos-Transfer2.5], a control-net style framework for Sim2Real and Real2Real world translation. Despite being 3.5$\times$ smaller than [Cosmos-Transfer1], it delivers higher fidelity and robust long-horizon video generation. Together, these advances establish [Cosmos-Predict2.5] and [Cosmos-Transfer2.5] as versatile tools for scaling embodied intelligence. To accelerate research and deployment in Physical AI, we release source code, pretrained checkpoints, and curated benchmarks under the NVIDIA Open Model License at https://github.com/nvidia-cosmos/cosmos-predict2.5 and https://github.com/nvidia-cosmos/cosmos-transfer2.5. We hope these open resources lower the barrier to adoption and foster innovation in building the next generation of embodied intelligence.