minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

作者: Min Zhao, Hongzhou Zhu, Bokai Yan, Zihan Zhou, Yimin Chen, Wenqiang Sun, Kaiwen Zheng, Guande He, Xiao Yang, Chongxuan Li, Fan Bao, Jun Zhu

分类: cs.CV

发布日期: 2026-05-28

🔗 代码/项目: GITHUB

💡 一句话要点

minWM：用于实时交互视频世界模型的全栈开源框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频世界模型 实时交互 扩散模型 自回归生成 知识蒸馏 相机控制 因果推理

📋 核心要点

交互式视频世界模型需要可控性、因果性和低延迟，现有方法难以同时满足这些需求，导致实时交互性不足。
minWM框架通过相机控制微调双向视频扩散模型，并采用Causal Forcing++等技术，将其蒸馏为少步自回归生成器，实现低延迟rollout。
minWM在Wan2.1-T2V-1.3B和HY1.5-TI2V-8B等backbone上进行了实例化，并提供了相机轨迹质量等方面的消融研究，验证了框架的有效性。

📝 摘要（中文）

最新的视频扩散模型在高质量视频生成方面取得了显著进展，但将其转化为实时交互视频世界模型仍然具有挑战性。交互式世界模型需要可控、因果和低延迟的rollout，这在实践中需要一个完整流程，包括数据构建、可控微调、自回归训练、少步蒸馏和流式推理。本文提出了minWM，一个用于构建实时交互视频世界模型的全栈开源框架。minWM提供了一个端到端的流程，将现有的双向T2V/TI2V视频基础模型转化为相机可控的少步自回归世界模型。具体来说，minWM首先使用相机控制对双向视频扩散模型进行微调，然后应用Causal Forcing / Causal Forcing++流程，包括AR扩散训练、因果ODE或因果一致性蒸馏以及非对称DMD，将其提炼成用于低延迟rollout的少步自回归生成器。该框架是模块化的和架构可扩展的：我们在具有代表性的开放backbone上实例化它，包括Wan2.1-T2V-1.3B和HY1.5-TI2V-8B，涵盖了基于交叉注意力的条件注入和MMDiT风格的架构。minWM还支持将现有的视频世界模型（如HY-WorldPlay）适配到新的数据分布、训练方案和延迟目标。除了发布可运行的脚本、检查点、文档和推理代码外，我们还提供了关于相机轨迹质量、可控性训练步骤和最小batch-size要求的实际消融研究。我们希望minWM能够成为构建和适配实时交互视频世界模型的可复现和可扩展的方案。

🔬 方法详解

问题定义：现有视频生成模型，尤其是扩散模型，虽然在生成质量上表现出色，但难以直接应用于实时交互场景。主要痛点在于：1) 缺乏对外部控制信号（如相机运动）的有效建模；2) 推理速度慢，难以满足实时性要求；3) 训练和部署成本高昂。

核心思路：minWM的核心思路是将预训练的、高质量的视频扩散模型转化为一个相机可控、低延迟的自回归生成器。通过可控微调、因果约束和知识蒸馏等技术，在保证生成质量的前提下，显著提升推理速度和可控性。

技术框架：minWM框架包含以下主要模块：1) 数据构建：构建包含相机控制信号的训练数据集；2) 可控微调：使用相机控制信号对预训练的视频扩散模型进行微调，使其具备初步的可控性；3) 自回归训练：采用Causal Forcing或Causal Forcing++等方法，将微调后的模型转化为自回归模型，使其能够进行rollout；4) 少步蒸馏：通过因果ODE或因果一致性蒸馏等技术，将自回归模型蒸馏成一个少步生成器，显著降低推理延迟；5) 流式推理：设计高效的流式推理pipeline，进一步优化延迟。

关键创新：minWM的关键创新在于：1) 提出了一个完整的、端到端的流程，将现有的双向视频扩散模型转化为实时交互视频世界模型；2) 采用了Causal Forcing++等技术，有效地提升了自回归模型的训练效率和生成质量；3) 通过少步蒸馏和流式推理等手段，显著降低了推理延迟。

关键设计：在可控微调阶段，采用了交叉注意力机制，将相机控制信号注入到视频扩散模型中。在自回归训练阶段，采用了Causal Forcing++损失函数，该损失函数在Causal Forcing的基础上，引入了额外的正则化项，以提升训练的稳定性和生成质量。在少步蒸馏阶段，采用了非对称DMD（Discrete Modal Decomposition）技术，进一步提升了推理速度。

🖼️ 关键图片

📊 实验亮点

论文在Wan2.1-T2V-1.3B和HY1.5-TI2V-8B等backbone上验证了minWM框架的有效性。实验结果表明，minWM能够将现有的视频扩散模型转化为相机可控、低延迟的自回归生成器。此外，论文还提供了关于相机轨迹质量、可控性训练步骤和最小batch-size要求的消融研究，为实际应用提供了指导。

🎯 应用场景

minWM框架可应用于虚拟现实、游戏开发、机器人控制等领域。例如，在虚拟现实中，用户可以通过控制虚拟相机的运动，实时生成逼真的场景。在游戏开发中，可以根据玩家的操作，动态生成游戏场景。在机器人控制中，可以利用世界模型预测机器人的行为对环境的影响，从而实现更智能的控制。

📄 摘要（原文）

Recent video diffusion foundation models have achieved remarkable progress in high-quality video generation, yet turning them into real-time interactive video world models remains challenging. Interactive world models require controllable, causal, and low-latency rollout, which in practice demands a full pipeline spanning data construction, controllable fine-tuning, autoregressive training, few-step distillation, and streaming inference. In this work, we present minWM, a full-stack open-source framework for building real-time interactive video world models. minWM provides an end-to-end pipeline that converts existing bidirectional T2V/TI2V video foundation models into camera-controllable few-step autoregressive world models. Specifically, minWM first fine-tunes a bidirectional video diffusion model with camera control, and then applies the Causal Forcing / Causal Forcing++ pipeline, including AR diffusion training, causal ODE or causal consistency distillation, and asymmetric DMD, to distill it into a few-step autoregressive generator for low-latency rollout. The framework is modular and architecture-extensible: we instantiate it on representative open backbones, including Wan2.1-T2V-1.3B and HY1.5-TI2V-8B, covering both cross-attention-based condition injection and MMDiT-style architectures. minWM also supports adapting existing video world models, such as HY-WorldPlay, to new data distributions, training recipes, and latency targets. Beyond releasing runnable scripts, checkpoints, documentation, and inference code, we provide practical ablations on camera trajectory quality, controllability training steps, and minimal batch-size requirements. We hope minWM serves as a reproducible and extensible recipe for building and adapting real-time interactive video world models. Project Page: https://github.com/shengshu-ai/minWM

minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理