iVideoGPT: Interactive VideoGPTs are Scalable World Models

📄 arXiv: 2405.15223v3 📥 PDF

作者: Jialong Wu, Shaofeng Yin, Ningya Feng, Xu He, Dong Li, Jianye Hao, Mingsheng Long

分类: cs.CV, cs.LG, cs.RO

发布日期: 2024-05-24 (更新: 2024-10-31)

备注: NeurIPS 2024. Code is available at project website: https://thuml.github.io/iVideoGPT

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

iVideoGPT:可扩展的交互式VideoGPTs作为世界模型,用于交互式探索和决策。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界模型 视频生成 自回归模型 Transformer 强化学习

📋 核心要点

  1. 现有世界模型难以兼顾交互性和可扩展性,限制了其在复杂环境中的应用。
  2. iVideoGPT通过将多模态信号token化,并采用自回归Transformer架构,实现了可扩展的交互式世界模型。
  3. 实验表明,iVideoGPT在动作条件视频预测、视觉规划和基于模型的强化学习等任务上表现出色。

📝 摘要(中文)

世界模型使基于模型的智能体能够在想象的环境中进行交互式探索、推理和规划,从而进行现实世界的决策。然而,对交互性的高需求对利用视频生成模型的最新进展来大规模开发世界模型提出了挑战。本文介绍了交互式VideoGPT (iVideoGPT),这是一个可扩展的自回归Transformer框架,它将多模态信号(视觉观察、动作和奖励)集成到token序列中,通过next-token预测促进智能体的交互体验。iVideoGPT采用了一种新颖的压缩token化技术,可以有效地离散化高维视觉观察。凭借其可扩展的架构,我们能够在数百万条人类和机器人操作轨迹上预训练iVideoGPT,从而建立一个通用的基础,该基础可以适应作为各种下游任务的交互式世界模型。这些任务包括动作条件视频预测、视觉规划和基于模型的强化学习,其中iVideoGPT与最先进的方法相比具有竞争力的性能。我们的工作推进了交互式通用世界模型的开发,弥合了生成视频模型和实际的基于模型的强化学习应用之间的差距。代码和预训练模型可在https://thuml.github.io/iVideoGPT 获得。

🔬 方法详解

问题定义:现有世界模型在处理高维视觉输入和复杂交互时,面临计算量大、泛化能力弱等问题。尤其是在需要频繁交互的环境中,如何高效地利用视频生成模型构建可扩展的世界模型是一个挑战。现有方法难以同时满足交互性和可扩展性的需求,限制了其在实际机器人和自动化任务中的应用。

核心思路:iVideoGPT的核心思路是将视觉观察、动作和奖励等多种模态的信息统一表示为token序列,然后利用自回归Transformer模型进行学习。通过预测序列中的下一个token,模型可以学习到环境的动态特性和智能体的行为模式,从而实现交互式的环境建模和预测。这种方法借鉴了语言模型的思想,将世界模型构建问题转化为序列预测问题。

技术框架:iVideoGPT的整体框架包括三个主要模块:1) 压缩token化模块,用于将高维视觉观察转换为离散的token表示;2) 自回归Transformer模型,用于学习token序列的动态特性;3) 预测模块,用于根据当前token序列预测下一个token,从而实现视频预测、规划和强化学习等任务。整个流程是,首先将视觉输入进行压缩token化,然后将token序列输入到Transformer模型中进行学习,最后利用预测模块进行下游任务。

关键创新:iVideoGPT的关键创新在于其压缩token化技术和可扩展的自回归Transformer架构。压缩token化技术能够有效地降低视觉输入的维度,减少计算量,同时保留关键信息。可扩展的Transformer架构使得模型能够处理更长的序列,从而学习更复杂的环境动态。此外,iVideoGPT将多模态信息统一表示为token序列,使得模型能够同时学习视觉、动作和奖励之间的关系。

关键设计:在压缩token化模块中,论文可能采用了VQ-VAE或类似的技术,将高维视觉输入映射到离散的codebook中。Transformer模型采用了标准的自回归结构,并可能进行了一些优化,例如使用稀疏注意力机制来降低计算复杂度。损失函数通常包括next-token预测损失和重构损失,以保证模型能够准确地预测下一个token,并保留视觉输入的关键信息。具体的参数设置和网络结构细节需要在论文原文中查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

iVideoGPT在多个任务上取得了有竞争力的性能。例如,在动作条件视频预测任务中,iVideoGPT能够生成高质量的视频序列,与现有方法相比具有更好的视觉效果和更强的预测能力。在视觉规划和基于模型的强化学习任务中,iVideoGPT能够有效地利用学习到的世界模型进行规划和决策,从而提高智能体的性能。

🎯 应用场景

iVideoGPT可应用于机器人操作、自动驾驶、游戏AI等领域。通过学习环境的动态特性,智能体可以在虚拟环境中进行探索和规划,从而提高其在现实世界中的决策能力。该研究有助于开发更智能、更自主的机器人和自动化系统,并为通用人工智能的发展奠定基础。

📄 摘要(原文)

World models empower model-based agents to interactively explore, reason, and plan within imagined environments for real-world decision-making. However, the high demand for interactivity poses challenges in harnessing recent advancements in video generative models for developing world models at scale. This work introduces Interactive VideoGPT (iVideoGPT), a scalable autoregressive transformer framework that integrates multimodal signals--visual observations, actions, and rewards--into a sequence of tokens, facilitating an interactive experience of agents via next-token prediction. iVideoGPT features a novel compressive tokenization technique that efficiently discretizes high-dimensional visual observations. Leveraging its scalable architecture, we are able to pre-train iVideoGPT on millions of human and robotic manipulation trajectories, establishing a versatile foundation that is adaptable to serve as interactive world models for a wide range of downstream tasks. These include action-conditioned video prediction, visual planning, and model-based reinforcement learning, where iVideoGPT achieves competitive performance compared with state-of-the-art methods. Our work advances the development of interactive general world models, bridging the gap between generative video models and practical model-based reinforcement learning applications. Code and pre-trained models are available at https://thuml.github.io/iVideoGPT.