InSpatio-WorldFM: An Open-Source Real-Time Generative Frame Model

作者: InSpatio Team, Xiaoyu Zhang, Weihong Pan, Zhichao Ye, Jialin Liu, Yipeng Chen, Nan Wang, Xiaojun Xiang, Weijian Xie, Yifu Wang, Haoyu Ji, Siji Pan, Zhewen Le, Jing Guo, Xianbin Liu, Donghui Shen, Ziqiang Zhao, Haomin Liu, Guofeng Zhang

分类: cs.CV

发布日期: 2026-03-12

备注: Project page: https://inspatio.github.io/worldfm/ Code: https://github.com/inspatio/worldfm

💡 一句话要点

InSpatio-WorldFM：开源实时生成式帧模型，实现低延迟空间智能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 世界模型 实时渲染 空间智能 多视图一致性 帧生成 扩散模型 三维重建

📋 核心要点

传统基于视频的世界模型由于依赖序列帧处理，存在显著延迟，难以满足实时空间推理的需求。
InSpatio-WorldFM采用独立帧生成范式，结合显式3D锚点和隐式空间记忆，保证多视角一致性和细节。
通过三阶段训练流程，将预训练图像扩散模型转化为可控的实时帧生成器，并在消费级GPU上实现交互式探索。

📝 摘要（中文）

本文提出了InSpatio-WorldFM，一个用于空间智能的开源实时帧模型。与依赖于顺序帧生成且因窗口级处理而产生显著延迟的基于视频的世界模型不同，InSpatio-WorldFM采用基于帧的范式，独立生成每一帧，从而实现低延迟的实时空间推理。通过显式的3D锚点和隐式的空间记忆来强制执行多视图空间一致性，该模型在保持全局场景几何结构的同时，还能在视点变化时保持精细的视觉细节。此外，我们还引入了一个渐进的三阶段训练流程，该流程将预训练的图像扩散模型转换为可控的帧模型，最后通过少样本蒸馏转换为实时生成器。实验结果表明，InSpatio-WorldFM实现了强大的多视图一致性，同时支持在消费级GPU上进行交互式探索，为实时世界模拟提供了一种高效的替代方案，优于传统的基于视频的世界模型。

🔬 方法详解

问题定义：现有基于视频的世界模型依赖于连续帧的生成，需要进行窗口级别的处理，导致较高的延迟，难以满足实时空间智能应用的需求。这些方法在处理视角变化时，也难以保持场景的全局一致性和精细的视觉细节。

核心思路：InSpatio-WorldFM的核心思路是采用基于帧的独立生成范式，避免了序列依赖，从而降低延迟。同时，通过显式的3D锚点和隐式的空间记忆来约束生成过程，保证多视角下场景的空间一致性和视觉细节。

技术框架：InSpatio-WorldFM的整体框架包含三个主要阶段：1) 将预训练的图像扩散模型转化为帧模型；2) 通过多视角一致性训练，增强帧模型的空间感知能力；3) 利用少样本蒸馏，将帧模型转化为实时生成器。该框架利用3D锚点来显式地约束场景的几何结构，并使用隐式空间记忆来捕捉场景的全局信息。

关键创新：InSpatio-WorldFM的关键创新在于其基于帧的独立生成范式和多视角一致性约束。与传统的基于视频的世界模型相比，它避免了序列依赖，从而显著降低了延迟。同时，通过显式的3D锚点和隐式的空间记忆，保证了多视角下场景的空间一致性和视觉细节。

关键设计：InSpatio-WorldFM的关键设计包括：1) 使用预训练的图像扩散模型作为生成器的基础，利用其强大的图像生成能力；2) 设计了三阶段训练流程，逐步将图像扩散模型转化为可控的实时帧生成器；3) 引入了显式的3D锚点和隐式的空间记忆，用于约束生成过程，保证多视角一致性。具体的损失函数包括用于保证图像质量的扩散损失、用于保证多视角一致性的几何损失等。网络结构方面，采用了U-Net结构作为生成器的主体。

🖼️ 关键图片

📊 实验亮点

InSpatio-WorldFM在消费级GPU上实现了实时交互式探索，证明了其高效性。实验结果表明，该模型在保持多视图一致性的同时，能够生成高质量的图像。通过与传统基于视频的世界模型进行对比，InSpatio-WorldFM在延迟方面具有显著优势，能够满足实时应用的需求。具体的性能数据（如帧率、延迟等）和对比基线（如其他世界模型）的详细信息需要在论文中查找。

🎯 应用场景

InSpatio-WorldFM具有广泛的应用前景，包括虚拟现实、增强现实、机器人导航、游戏开发等领域。它可以用于构建实时的、交互式的虚拟环境，为用户提供沉浸式的体验。此外，它还可以用于训练机器人的空间感知能力，使其能够在复杂的环境中进行导航和操作。该研究的实际价值在于提供了一种高效的实时世界模拟方法，为空间智能应用的发展奠定了基础。未来，该技术有望应用于自动驾驶、智能家居等领域。

📄 摘要（原文）

We present InSpatio-WorldFM, an open-source real-time frame model for spatial intelligence. Unlike video-based world models that rely on sequential frame generation and incur substantial latency due to window-level processing, InSpatio-WorldFM adopts a frame-based paradigm that generates each frame independently, enabling low-latency real-time spatial inference. By enforcing multi-view spatial consistency through explicit 3D anchors and implicit spatial memory, the model preserves global scene geometry while maintaining fine-grained visual details across viewpoint changes. We further introduce a progressive three-stage training pipeline that transforms a pretrained image diffusion model into a controllable frame model and finally into a real-time generator through few-step distillation. Experimental results show that InSpatio-WorldFM achieves strong multi-view consistency while supporting interactive exploration on consumer-grade GPUs, providing an efficient alternative to traditional video-based world models for real-time world simulation.

InSpatio-WorldFM: An Open-Source Real-Time Generative Frame Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理