WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

作者: Wenqiang Sun, Haiyu Zhang, Haoyuan Wang, Junta Wu, Zehan Wang, Zhenwei Wang, Yunhong Wang, Jun Zhang, Tengfei Wang, Chunchao Guo

分类: cs.CV, cs.GR

发布日期: 2025-12-16

备注: project page: https://3d-models.hunyuan.tencent.com/world/, demo: https://3d.hunyuan.tencent.com/sceneTo3D

💡 一句话要点

WorldPlay：提出一种具有长期几何一致性的实时交互式世界建模方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting)

关键词: 实时渲染 交互式建模 视频扩散模型 长期一致性 记忆增强 蒸馏训练 几何建模 虚拟现实

📋 核心要点

现有实时交互式世界建模方法在速度和长期几何一致性之间存在权衡，难以兼顾。
WorldPlay通过双重动作表示、重构上下文记忆和上下文强制蒸馏，实现长期几何一致性的实时交互式世界建模。
实验表明，WorldPlay能够以24 FPS的速度生成720p视频，并在长期一致性和泛化性方面优于现有技术。

📝 摘要（中文）

本文提出WorldPlay，一种流式视频扩散模型，能够实现具有长期几何一致性的实时交互式世界建模，解决了现有方法在速度和内存之间的权衡问题。WorldPlay得益于三个关键创新：1) 使用双重动作表示，以响应用户的键盘和鼠标输入，实现鲁棒的动作控制；2) 为了保证长期一致性，重构上下文记忆动态地从过去的帧中重建上下文，并使用时间重构来保持几何上重要但时间上久远的帧的可访问性，有效地缓解了记忆衰减；3) 我们还提出了一种专为记忆感知模型设计的新型蒸馏方法，即上下文强制。对齐教师和学生模型之间的记忆上下文，保持学生模型使用长程信息的能力，从而在防止误差漂移的同时实现实时速度。综上所述，WorldPlay以24 FPS的速度生成长时程流式720p视频，具有卓越的一致性，与现有技术相比具有优势，并在各种场景中表现出强大的泛化能力。

🔬 方法详解

问题定义：现有实时交互式世界建模方法面临速度和长期几何一致性之间的矛盾。为了保证长期一致性，需要存储大量的历史帧信息，导致计算和存储成本过高，难以实现实时性。而为了提高速度，则需要牺牲长期一致性，导致生成的世界模型出现几何失真和漂移等问题。

核心思路：WorldPlay的核心思路是通过一种记忆增强的视频扩散模型，在保证实时性的前提下，实现长期几何一致性。具体来说，通过重构上下文记忆来动态地从过去的帧中重建上下文，并使用时间重构来保持几何上重要但时间上久远的帧的可访问性，从而缓解记忆衰减。同时，使用上下文强制蒸馏方法，将教师模型的长期记忆能力传递给学生模型，从而在保证实时速度的同时，防止误差漂移。

技术框架：WorldPlay的整体框架包含以下几个主要模块：1) 双重动作表示模块，用于将用户的键盘和鼠标输入转换为动作表示；2) 视频扩散模型，用于生成视频帧；3) 重构上下文记忆模块，用于从过去的帧中重建上下文；4) 时间重构模块，用于保持几何上重要但时间上久远的帧的可访问性；5) 上下文强制蒸馏模块，用于将教师模型的长期记忆能力传递给学生模型。

关键创新：WorldPlay的关键创新在于以下三个方面：1) 提出了一种双重动作表示方法，能够更鲁棒地响应用户的输入；2) 提出了一种重构上下文记忆方法，能够有效地缓解记忆衰减，保证长期一致性；3) 提出了一种上下文强制蒸馏方法，能够将教师模型的长期记忆能力传递给学生模型，从而在保证实时速度的同时，防止误差漂移。

关键设计：在双重动作表示方面，具体实现细节未知。在重构上下文记忆方面，采用了动态重建上下文和时间重构的技术，具体实现细节未知。在上下文强制蒸馏方面，通过对齐教师和学生模型之间的记忆上下文，保持学生模型使用长程信息的能力，具体实现细节未知。损失函数和网络结构等细节也未在摘要中提及。

🖼️ 关键图片

📊 实验亮点

WorldPlay能够以24 FPS的速度生成长时程流式720p视频，具有卓越的一致性，与现有技术相比具有优势，并在各种场景中表现出强大的泛化能力。具体性能数据和对比基线未在摘要中给出，但项目页面和在线演示提供了更详细的信息。

🎯 应用场景

WorldPlay具有广泛的应用前景，例如虚拟现实、增强现实、游戏开发、机器人导航等领域。它可以用于创建更加逼真、交互性更强的虚拟世界，为用户提供沉浸式的体验。此外，WorldPlay还可以用于训练机器人，使其能够在复杂环境中进行导航和操作。

📄 摘要（原文）

This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key innovations. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: https://3d-models.hunyuan.tencent.com/world/ and https://3d.hunyuan.tencent.com/sceneTo3D.

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理