The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

📄 arXiv: 2512.16924v1 📥 PDF

作者: Hanlin Wang, Hao Ouyang, Qiuyu Wang, Yue Yu, Yihao Meng, Wen Wang, Ka Leong Cheng, Shuailei Ma, Qingyan Bai, Yixuan Li, Cheng Chen, Yanhong Zeng, Xing Zhu, Yujun Shen, Qifeng Chen

分类: cs.CV

发布日期: 2025-12-18

备注: Project page and code: https://worldcanvas.github.io/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

WorldCanvas:结合文本、轨迹和参考图像,实现可控的世界事件模拟。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界模型 事件模拟 多模态融合 轨迹控制 图像生成

📋 核心要点

  1. 现有方法在世界事件模拟中存在局限,如仅依赖文本或缺乏对运动、时间等细粒度控制。
  2. WorldCanvas结合文本、轨迹和参考图像,实现对世界事件更精细、可控的模拟生成。
  3. 实验结果表明,WorldCanvas能够生成时间连贯且对象身份保持一致的复杂世界事件视频。

📝 摘要(中文)

本文提出了WorldCanvas,一个用于可提示世界事件的框架,它通过结合文本、轨迹和参考图像来实现丰富的、用户导向的模拟。与仅使用文本的方法和现有的轨迹控制图像到视频方法不同,我们的多模态方法将轨迹(编码运动、时间安排和可见性)与自然语言(用于语义意图)以及参考图像(用于对象身份的视觉基础)相结合,从而能够生成连贯的、可控的事件,包括多智能体交互、对象进入/退出、参考引导的外观和违反直觉的事件。生成的视频不仅展示了时间连贯性,还展示了涌现一致性,即使在暂时消失的情况下也能保持对象身份和场景。通过支持富有表现力的世界事件生成,WorldCanvas将世界模型从被动预测器提升为交互式的、用户塑造的模拟器。

🔬 方法详解

问题定义:现有世界模型主要依赖文本输入,难以精确控制事件的运动轨迹、时间安排以及对象外观。图像到视频的方法虽然能控制轨迹,但缺乏对语义意图的理解和对象身份的视觉 grounding,导致生成视频缺乏连贯性和可控性。因此,需要一种能够结合多种模态信息,实现对世界事件进行更丰富、更可控模拟的框架。

核心思路:WorldCanvas的核心思路是将文本、轨迹和参考图像三种模态的信息融合起来,共同驱动世界事件的生成。轨迹信息编码了运动、时间安排和可见性,自然语言提供了语义意图,参考图像则提供了对象身份的视觉基础。通过多模态信息的协同作用,可以生成更连贯、更可控、更符合用户意图的世界事件。

技术框架:WorldCanvas框架包含以下主要模块:1) 轨迹编码模块:将轨迹信息编码成可供后续模块使用的特征向量。2) 文本编码模块:使用预训练的语言模型对自然语言描述进行编码。3) 参考图像编码模块:提取参考图像的视觉特征,用于指导生成过程中的对象外观。4) 事件生成模块:结合轨迹、文本和参考图像的编码信息,生成相应的视频帧序列。该模块通常基于生成对抗网络(GAN)或扩散模型等技术实现。

关键创新:WorldCanvas的关键创新在于其多模态融合的方式,它不仅简单地将不同模态的信息拼接在一起,而是通过设计特定的网络结构和损失函数,使得不同模态的信息能够相互作用、相互补充。此外,WorldCanvas还引入了参考图像,从而能够更好地控制生成视频中对象的外观和身份,这与现有方法有本质区别。

关键设计:具体的技术细节包括:1) 轨迹编码方式:可以使用样条曲线或贝塞尔曲线等方法对轨迹进行参数化表示,并将其编码成固定长度的向量。2) 损失函数设计:除了传统的对抗损失或重构损失外,还可以引入额外的损失函数来保证生成视频的时间连贯性和对象身份的一致性,例如,可以使用光流一致性损失或身份保持损失。3) 网络结构设计:可以使用注意力机制或交叉注意力机制来融合不同模态的信息,从而使得模型能够更好地理解不同模态之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了WorldCanvas的有效性。实验结果表明,WorldCanvas能够生成时间连贯且对象身份保持一致的复杂世界事件视频。与现有的方法相比,WorldCanvas在生成视频的质量和可控性方面都有显著的提升。项目主页提供了丰富的视频案例,展示了WorldCanvas的强大能力。

🎯 应用场景

WorldCanvas在游戏开发、电影制作、虚拟现实、机器人训练等领域具有广泛的应用前景。它可以用于生成各种各样的虚拟场景和事件,从而降低内容创作的成本,提高创作效率。此外,WorldCanvas还可以用于训练机器人的行为策略,例如,可以模拟机器人在不同环境下的运动轨迹和交互行为。

📄 摘要(原文)

We present WorldCanvas, a framework for promptable world events that enables rich, user-directed simulation by combining text, trajectories, and reference images. Unlike text-only approaches and existing trajectory-controlled image-to-video methods, our multimodal approach combines trajectories -- encoding motion, timing, and visibility -- with natural language for semantic intent and reference images for visual grounding of object identity, enabling the generation of coherent, controllable events that include multi-agent interactions, object entry/exit, reference-guided appearance and counterintuitive events. The resulting videos demonstrate not only temporal coherence but also emergent consistency, preserving object identity and scene despite temporary disappearance. By supporting expressive world events generation, WorldCanvas advances world models from passive predictors to interactive, user-shaped simulators. Our project page is available at: https://worldcanvas.github.io/.