A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

作者: Tommie Kerssies, Gabriele Berton, Ju He, Qihang Yu, Wufei Ma, Daan de Geus, Gijs Dubbelman, Liang-Chieh Chen

分类: cs.CV

发布日期: 2026-04-07

💡 一句话要点

提出DeltaWorld，通过Delta Tokens高效生成多样化视频未来帧，显著降低计算成本。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 世界模型 视频预测 生成模型 视觉基础模型 Delta Token 多假设训练 高效计算

📋 核心要点

现有生成式世界模型计算成本高昂，难以高效预测视频未来帧的多样化状态。
DeltaWorld通过DeltaTok将视频帧差异编码为紧凑的delta token序列，降低了计算复杂度。
实验表明，DeltaWorld在预测精度和计算效率上均优于现有生成式模型，参数量减少35倍，FLOPs减少2000倍。

📝 摘要（中文）

在视频世界建模中，预测多样化的未来状态是一个核心挑战。判别式世界模型产生确定性预测，隐式地平均了可能的未来，而现有的生成式世界模型计算成本仍然很高。最近的研究表明，在视觉基础模型（VFM）的特征空间中预测未来，而不是在为像素重建优化的潜在空间中预测未来，需要的世界模型参数要少得多。然而，大多数此类方法仍然是判别式的。本文介绍DeltaTok，一种将连续帧之间的VFM特征差异编码为单个连续“delta”token的tokenizer，以及DeltaWorld，一种基于这些token运行的生成式世界模型，以高效地生成多样化的合理未来。Delta token将视频从三维时空表示简化为一维时间序列，例如，对于512x512的帧，token减少了1,024倍。这种紧凑的表示使得可处理多假设训练成为可能，其中并行生成许多未来，并且仅监督最佳未来。在推理时，这导致在单个前向传递中产生多样化的预测。在密集预测任务上的实验表明，DeltaWorld预测的未来与真实世界的结果更紧密地对齐，同时具有比现有生成式世界模型少35倍以上的参数，并使用少2,000倍的FLOPs。代码和权重：this https URL。

🔬 方法详解

问题定义：现有生成式世界模型在预测视频未来帧时，计算复杂度高，难以高效生成多样化的、与真实世界对齐的未来状态。这些模型通常需要大量的参数和计算资源，限制了其在实际应用中的部署。

核心思路：论文的核心思路是将视频帧之间的差异信息编码为紧凑的delta token序列，从而将三维时空表示简化为一维时间序列。通过在视觉基础模型（VFM）的特征空间中操作，而不是在像素空间或潜在空间中操作，可以显著减少模型参数和计算量。此外，采用多假设训练，并行生成多个未来，并仅监督最佳未来，从而提高预测的多样性和准确性。

技术框架：DeltaWorld框架主要包含两个核心模块：DeltaTok和生成模型。DeltaTok负责将连续帧之间的VFM特征差异编码为delta token。生成模型则基于这些delta token序列，预测未来的delta token序列，进而解码为未来的视频帧。整个流程包括：1) 使用VFM提取视频帧的特征；2) 计算连续帧之间的特征差异；3) 使用DeltaTok将特征差异编码为delta token；4) 使用生成模型预测未来的delta token序列；5) 将预测的delta token序列解码为未来的视频帧。

关键创新：最重要的技术创新点在于DeltaTok的设计，它能够将视频帧之间的差异信息高效地压缩为单个连续的delta token。与直接预测像素或潜在空间特征相比，预测delta token能够显著减少模型需要学习的信息量，从而降低计算复杂度。此外，多假设训练策略也提高了预测的多样性和准确性。

关键设计：DeltaTok的具体实现方式未知，但可以推测其可能采用某种量化或编码技术，将连续的特征差异映射到离散或连续的token空间。生成模型可能采用Transformer或其他序列建模架构，以学习delta token序列之间的依赖关系。多假设训练的具体实现方式也未知，但可能涉及生成多个候选未来，并使用某种评分函数选择最佳未来进行监督。

🖼️ 关键图片

📊 实验亮点

DeltaWorld在密集预测任务上表现出色，能够生成与真实世界结果更紧密对齐的未来帧。与现有生成式世界模型相比，DeltaWorld的参数量减少了35倍以上，FLOPs减少了2000倍，显著提高了计算效率。这些结果表明，DeltaWorld是一种高效且准确的视频未来预测方法。

🎯 应用场景

DeltaWorld具有广泛的应用前景，例如机器人导航、自动驾驶、视频游戏和虚拟现实等领域。它可以用于预测环境变化，帮助智能体做出更明智的决策。此外，DeltaWorld还可以用于视频压缩和生成，以及其他需要高效视频处理的应用。

📄 摘要（原文）

Anticipating diverse future states is a central challenge in video world modeling. Discriminative world models produce a deterministic prediction that implicitly averages over possible futures, while existing generative world models remain computationally expensive. Recent work demonstrates that predicting the future in the feature space of a vision foundation model (VFM), rather than a latent space optimized for pixel reconstruction, requires significantly fewer world model parameters. However, most such approaches remain discriminative. In this work, we introduce DeltaTok, a tokenizer that encodes the VFM feature difference between consecutive frames into a single continuous "delta" token, and DeltaWorld, a generative world model operating on these tokens to efficiently generate diverse plausible futures. Delta tokens reduce video from a three-dimensional spatio-temporal representation to a one-dimensional temporal sequence, for example yielding a 1,024x token reduction with 512x512 frames. This compact representation enables tractable multi-hypothesis training, where many futures are generated in parallel and only the best is supervised. At inference, this leads to diverse predictions in a single forward pass. Experiments on dense forecasting tasks demonstrate that DeltaWorld forecasts futures that more closely align with real-world outcomes, while having over 35x fewer parameters and using 2,000x fewer FLOPs than existing generative world models. Code and weights:this https URL.

A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理