Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control

📄 arXiv: 2503.14492v2 📥 PDF

作者: NVIDIA, :, Hassan Abu Alhaija, Jose Alvarez, Maciej Bala, Tiffany Cai, Tianshi Cao, Liz Cha, Joshua Chen, Mike Chen, Francesco Ferroni, Sanja Fidler, Dieter Fox, Yunhao Ge, Jinwei Gu, Ali Hassani, Michael Isaev, Pooya Jannaty, Shiyi Lan, Tobias Lasser, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Fabio Ramos, Xuanchi Ren, Tianchang Shen, Xinglong Sun, Shitao Tang, Ting-Chun Wang, Jay Wu, Jiashu Xu, Stella Xu, Kevin Xie, Yuchong Ye, Xiaodong Yang, Xiaohui Zeng, Yu Zeng

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2025-03-18 (更新: 2025-04-01)

🔗 代码/项目: GITHUB


💡 一句话要点

Cosmos-Transfer:基于自适应多模态控制的条件世界生成模型,应用于Sim2Real。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 条件世界生成 多模态控制 自适应学习 Sim2Real 物理人工智能

📋 核心要点

  1. 现有世界生成方法难以有效融合多种空间控制信号,限制了其在复杂场景中的应用。
  2. Cosmos-Transfer通过自适应空间条件方案,允许模型根据位置和模态的重要性灵活地融合多种控制信号。
  3. 实验表明,该模型在机器人Sim2Real和自动驾驶数据增强等任务中表现出色,并实现了实时世界生成。

📝 摘要(中文)

我们介绍了Cosmos-Transfer,一个条件世界生成模型,能够基于多种模态的空间控制输入(如分割、深度和边缘)生成世界模拟。在设计上,该空间条件方案是自适应且可定制的,允许在不同的空间位置对不同的条件输入进行不同权重的加权。这使得高度可控的世界生成成为可能,并可用于各种世界到世界的迁移用例,包括Sim2Real。我们进行了广泛的评估来分析所提出的模型,并展示了其在物理人工智能中的应用,包括机器人Sim2Real和自动驾驶汽车数据增强。我们进一步展示了一种推理扩展策略,以使用NVIDIA GB200 NVL72机架实现实时世界生成。为了帮助加速该领域的研究发展,我们在https://github.com/nvidia-cosmos/cosmos-transfer1开源了我们的模型和代码。

🔬 方法详解

问题定义:现有世界生成方法在处理多模态空间控制输入时存在局限性。它们通常难以有效地融合来自不同模态的信息,或者无法根据空间位置的重要性自适应地调整不同模态的影响。这限制了它们在需要精细控制和复杂场景下的应用,例如Sim2Real迁移。

核心思路:Cosmos-Transfer的核心思路是引入一种自适应的空间条件方案,允许模型根据不同的空间位置和模态类型,对不同的控制输入进行加权。这种自适应性使得模型能够更灵活地融合多模态信息,并生成更逼真、更可控的世界模拟。这样设计的目的是为了解决现有方法在处理复杂空间控制输入时的局限性,提高世界生成的质量和可控性。

技术框架:Cosmos-Transfer的整体架构包含一个生成器网络和一个自适应条件模块。生成器网络负责生成世界模拟,而自适应条件模块则负责融合来自不同模态的空间控制输入,并将其传递给生成器网络。该模块通过学习不同模态在不同空间位置的重要性权重,实现自适应的条件控制。推理阶段,论文提出了一种扩展策略,以实现实时世界生成。

关键创新:Cosmos-Transfer最重要的技术创新点在于其自适应的空间条件方案。与现有方法相比,该方案能够根据空间位置和模态类型,动态地调整不同控制输入的影响,从而实现更精细、更可控的世界生成。这种自适应性是现有方法所不具备的,也是Cosmos-Transfer能够取得更好效果的关键。

关键设计:自适应条件模块的设计是关键。具体来说,该模块可能包含注意力机制或其他自适应加权机制,用于学习不同模态在不同空间位置的重要性权重。损失函数的设计可能包括对抗损失、感知损失以及其他用于保证生成质量和条件一致性的损失函数。具体的网络结构细节(如卷积层、Transformer层等)未知,但自适应条件模块是核心。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了Cosmos-Transfer在机器人Sim2Real和自动驾驶数据增强等任务中的有效性。具体性能数据未知,但论文强调了该模型能够生成高质量的世界模拟,并显著提高AI系统的性能。此外,论文还展示了一种推理扩展策略,使得该模型能够使用NVIDIA GB200 NVL72机架实现实时世界生成,这对于实际应用至关重要。

🎯 应用场景

Cosmos-Transfer在物理人工智能领域具有广泛的应用前景,包括机器人Sim2Real迁移、自动驾驶汽车数据增强、游戏场景生成等。通过生成逼真且可控的世界模拟,该模型可以帮助机器人更好地适应真实环境,提高自动驾驶系统的安全性和可靠性,并加速游戏开发流程。该研究的实际价值在于降低了AI系统开发和部署的成本,并为未来的AI应用开辟了新的可能性。

📄 摘要(原文)

We introduce Cosmos-Transfer, a conditional world generation model that can generate world simulations based on multiple spatial control inputs of various modalities such as segmentation, depth, and edge. In the design, the spatial conditional scheme is adaptive and customizable. It allows weighting different conditional inputs differently at different spatial locations. This enables highly controllable world generation and finds use in various world-to-world transfer use cases, including Sim2Real. We conduct extensive evaluations to analyze the proposed model and demonstrate its applications for Physical AI, including robotics Sim2Real and autonomous vehicle data enrichment. We further demonstrate an inference scaling strategy to achieve real-time world generation with an NVIDIA GB200 NVL72 rack. To help accelerate research development in the field, we open-source our models and code at https://github.com/nvidia-cosmos/cosmos-transfer1.