From Zero to Hero: Training-Free Custom Concept Spawning in World Models

📄 arXiv: 2606.02575v1 📥 PDF

作者: Kiymet Akdemir, Pinar Yanardag

分类: cs.CV

发布日期: 2026-06-01


💡 一句话要点

提出SPAWN,一种免训练的世界模型概念植入方法,用于交互式视频生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界模型 概念植入 免训练 交互式视频生成 自回归模型

📋 核心要点

  1. 现有世界模型在用户探索未见区域时,无法控制生成内容,缺乏用户指定视觉概念的能力。
  2. SPAWN方法通过在短时间内将参考帧锚点替换为外部概念潜在变量,实现概念在世界模型中的自然传播。
  3. 实验表明,SPAWN在保持光照、比例和透视一致性的同时,实现了概念植入,且无需额外训练。

📝 摘要(中文)

自回归世界模型已成为交互式视频生成的强大范例,允许用户通过动作导航动态生成环境。这些模型通常以文本提示和/或单个参考帧为条件,从中生成整个世界。然而,一旦用户导航到该帧中不可见的区域,这些区域就会被基础模型的先验填充,而没有机制让用户指定应该出现什么以及在哪里出现。这对于游戏、互动故事和模拟等应用来说是一个根本性的限制,在这些应用中,可控的场景组合至关重要。我们将这种缺失的能力称为概念植入,即在世界模型中引入用户指定的视觉概念,类似于在游戏引擎中生成。我们引入SPAWN(Swapping Pinned Anchor with Windowed iNjection),一种用于概念植入的免训练方法。SPAWN利用图像到视频骨干网络的结构属性:上下文内存的第一个槽位固定到参考帧,并作为每个生成块的基础锚点。通过在短注入窗口内将此锚点与外部概念潜在变量交换,并让原始锚点返回,我们使概念通过模型自身的内存自然地传播到整个 rollout 中。SPAWN支持从角色和道具等细粒度实体到建筑物和地标等大规模元素的概念,并接受概念图像或文本描述作为输入。实验表明,SPAWN集成了具有一致光照、比例和透视的概念,同时保持了身份和时间连贯性,证明了在现有的自回归世界模型中,无需任何训练即可实现可控的概念植入。

🔬 方法详解

问题定义:现有自回归世界模型在交互式视频生成中,当用户探索超出初始参考帧范围的区域时,无法控制新生成的内容。用户无法指定在这些区域中应该出现什么视觉概念,这限制了其在游戏、互动故事等需要可控场景组合的应用中的使用。现有方法需要大量训练才能实现类似效果,成本高昂。

核心思路:SPAWN的核心思路是利用现有世界模型中参考帧锚点的作用,通过在短时间内将该锚点替换为代表目标概念的潜在变量,从而将该概念“注入”到生成过程中。由于锚点对后续帧的生成具有重要影响,因此该概念会通过模型的自身记忆机制自然地传播到整个视频序列中。

技术框架:SPAWN方法主要包含以下几个步骤:1) 选择一个参考帧作为初始锚点。2) 获取用户想要植入的概念的潜在表示,可以通过图像编码器或文本编码器实现。3) 在一个短时间窗口内,将参考帧锚点替换为概念的潜在表示。4) 在时间窗口结束后,恢复使用原始的参考帧锚点。5) 利用世界模型生成后续帧,概念会自然地融入到生成的视频序列中。

关键创新:SPAWN的关键创新在于其免训练的特性。它不需要对世界模型进行任何额外的训练,即可实现概念植入。这极大地降低了使用成本,并使得该方法可以应用于各种已有的自回归世界模型。此外,SPAWN利用了模型自身的记忆机制,使得植入的概念能够自然地融入到生成的视频序列中,保持时间一致性。

关键设计:SPAWN的关键设计在于“注入窗口”的长度。注入窗口太短可能导致概念无法充分传播,注入窗口太长可能导致生成结果不稳定。论文中可能通过实验确定了合适的注入窗口长度。此外,概念的潜在表示的质量也至关重要,高质量的潜在表示能够更好地保证植入概念的质量和一致性。具体实现细节(如潜在表示的获取方式、注入窗口长度的选择等)未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SPAWN无需任何训练即可在现有的自回归世界模型中实现可控的概念植入。实验结果表明,SPAWN能够将概念以一致的光照、比例和透视集成到生成的视频序列中,同时保持身份和时间连贯性。具体性能数据未知,但该方法在概念植入方面取得了显著的成果。

🎯 应用场景

SPAWN具有广泛的应用前景,例如在游戏中,玩家可以自定义游戏场景中的角色和道具;在互动故事中,用户可以控制故事的发展方向和场景布置;在模拟环境中,用户可以创建各种自定义场景进行实验和分析。该方法能够极大地提高用户对世界模型的控制能力,并为各种创意应用提供新的可能性。

📄 摘要(原文)

Autoregressive world models have emerged as a powerful paradigm for interactive video generation, allowing users to navigate dynamically generated environments through actions. These models are typically conditioned on a text prompt and/or a single reference frame, from which the entire world is generated. Yet the moment the user navigates beyond what is visible in that frame, the unseen regions are populated by the base model's priors, with no mechanism for the user to specify what should appear and where. This is a fundamental limitation for applications such as gaming, interactive storytelling, and simulation, where controllable scene composition is essential. We refer to this missing capability as concept spawning; introducing a user-specified visual concept into a world model, analogous to spawning in a game engine. We introduce SPAWN (Swapping Pinned Anchor with Windowed iNjection), a training-free method for concept spawning. SPAWN exploits a structural property of image-to-video backbones: the first slot of the context memory is pinned to the reference frame and acts as a foundational anchor for every generated chunk. By swapping this anchor with an external concept latent over a short injection window and letting the original anchor return, we cause the concept to propagate naturally through the rollout via the model's own memory. SPAWN supports concepts from fine-grained entities such as characters and props to large-scale elements such as buildings and landmarks, and accepts either a concept image or a text description as input. Experiments show that SPAWN integrates concepts with consistent lighting, scale, and perspective while preserving identity and temporal coherence, demonstrating that controllable concept spawning is achievable in existing autoregressive world models without any training.