A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens
作者: Tommie Kerssies, Gabriele Berton, Ju He, Qihang Yu, Wufei Ma, Daan de Geus, Gijs Dubbelman, Liang-Chieh Chen
分类: cs.CV
发布日期: 2026-04-07
💡 一句话要点
提出DeltaWorld,通过Delta Tokens高效生成多样化视频未来帧,显著降低计算成本。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 世界模型 视频预测 生成模型 视觉基础模型 Delta Token 多假设训练 高效计算
📋 核心要点
- 现有生成式世界模型计算成本高昂,难以高效预测视频未来帧的多样化状态。
- DeltaWorld通过DeltaTok将视频帧差异编码为紧凑的delta token序列,降低了计算复杂度。
- 实验表明,DeltaWorld在预测精度和计算效率上均优于现有生成式模型,参数量减少35倍,FLOPs减少2000倍。
📝 摘要(中文)
在视频世界建模中,预测多样化的未来状态是一个核心挑战。判别式世界模型产生确定性预测,隐式地平均了可能的未来,而现有的生成式世界模型计算成本仍然很高。最近的研究表明,在视觉基础模型(VFM)的特征空间中预测未来,而不是在为像素重建优化的潜在空间中预测未来,需要的世界模型参数要少得多。然而,大多数此类方法仍然是判别式的。本文介绍DeltaTok,一种将连续帧之间的VFM特征差异编码为单个连续“delta”token的tokenizer,以及DeltaWorld,一种基于这些token运行的生成式世界模型,以高效地生成多样化的合理未来。Delta token将视频从三维时空表示简化为一维时间序列,例如,对于512x512的帧,token减少了1,024倍。这种紧凑的表示使得可处理多假设训练成为可能,其中并行生成许多未来,并且仅监督最佳未来。在推理时,这导致在单个前向传递中产生多样化的预测。在密集预测任务上的实验表明,DeltaWorld预测的未来与真实世界的结果更紧密地对齐,同时具有比现有生成式世界模型少35倍以上的参数,并使用少2,000倍的FLOPs。代码和权重:this https URL。
🔬 方法详解
问题定义:现有生成式世界模型在预测视频未来帧时,计算复杂度高,难以高效生成多样化的、与真实世界对齐的未来状态。这些模型通常需要大量的参数和计算资源,限制了其在实际应用中的部署。
核心思路:论文的核心思路是将视频帧之间的差异信息编码为紧凑的delta token序列,从而将三维时空表示简化为一维时间序列。通过在视觉基础模型(VFM)的特征空间中操作,而不是在像素空间或潜在空间中操作,可以显著减少模型参数和计算量。此外,采用多假设训练,并行生成多个未来,并仅监督最佳未来,从而提高预测的多样性和准确性。
技术框架:DeltaWorld框架主要包含两个核心模块:DeltaTok和生成模型。DeltaTok负责将连续帧之间的VFM特征差异编码为delta token。生成模型则基于这些delta token序列,预测未来的delta token序列,进而解码为未来的视频帧。整个流程包括:1) 使用VFM提取视频帧的特征;2) 计算连续帧之间的特征差异;3) 使用DeltaTok将特征差异编码为delta token;4) 使用生成模型预测未来的delta token序列;5) 将预测的delta token序列解码为未来的视频帧。
关键创新:最重要的技术创新点在于DeltaTok的设计,它能够将视频帧之间的差异信息高效地压缩为单个连续的delta token。与直接预测像素或潜在空间特征相比,预测delta token能够显著减少模型需要学习的信息量,从而降低计算复杂度。此外,多假设训练策略也提高了预测的多样性和准确性。
关键设计:DeltaTok的具体实现方式未知,但可以推测其可能采用某种量化或编码技术,将连续的特征差异映射到离散或连续的token空间。生成模型可能采用Transformer或其他序列建模架构,以学习delta token序列之间的依赖关系。多假设训练的具体实现方式也未知,但可能涉及生成多个候选未来,并使用某种评分函数选择最佳未来进行监督。
🖼️ 关键图片
📊 实验亮点
DeltaWorld在密集预测任务上表现出色,能够生成与真实世界结果更紧密对齐的未来帧。与现有生成式世界模型相比,DeltaWorld的参数量减少了35倍以上,FLOPs减少了2000倍,显著提高了计算效率。这些结果表明,DeltaWorld是一种高效且准确的视频未来预测方法。
🎯 应用场景
DeltaWorld具有广泛的应用前景,例如机器人导航、自动驾驶、视频游戏和虚拟现实等领域。它可以用于预测环境变化,帮助智能体做出更明智的决策。此外,DeltaWorld还可以用于视频压缩和生成,以及其他需要高效视频处理的应用。
📄 摘要(原文)
Anticipating diverse future states is a central challenge in video world modeling. Discriminative world models produce a deterministic prediction that implicitly averages over possible futures, while existing generative world models remain computationally expensive. Recent work demonstrates that predicting the future in the feature space of a vision foundation model (VFM), rather than a latent space optimized for pixel reconstruction, requires significantly fewer world model parameters. However, most such approaches remain discriminative. In this work, we introduce DeltaTok, a tokenizer that encodes the VFM feature difference between consecutive frames into a single continuous "delta" token, and DeltaWorld, a generative world model operating on these tokens to efficiently generate diverse plausible futures. Delta tokens reduce video from a three-dimensional spatio-temporal representation to a one-dimensional temporal sequence, for example yielding a 1,024x token reduction with 512x512 frames. This compact representation enables tractable multi-hypothesis training, where many futures are generated in parallel and only the best is supervised. At inference, this leads to diverse predictions in a single forward pass. Experiments on dense forecasting tasks demonstrate that DeltaWorld forecasts futures that more closely align with real-world outcomes, while having over 35x fewer parameters and using 2,000x fewer FLOPs than existing generative world models. Code and weights:this https URL.