INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling
作者: InSpatio Team, Donghui Shen, Guofeng Zhang, Haomin Liu, Haoyu Ji, Hujun Bao, Hongjia Zhai, Jialin Liu, Jing Guo, Nan Wang, Siji Pan, Weihong Pan, Weijian Xie, Xianbin Liu, Xiaojun Xiang, Xiaoyu Zhang, Xinyu Chen, Yifu Wang, Yipeng Chen, Zhenzhou Fan, Zhewen Le, Zhichao Ye, Ziqiang Zhao
分类: cs.CV
发布日期: 2026-04-08
💡 一句话要点
INSPATIO-WORLD:基于时空自回归建模的实时4D世界模拟器
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱八:物理动画 (Physics-based Animation)
关键词: 4D世界建模 时空自回归 实时交互 视频生成 单目重建
📋 核心要点
- 现有视频生成方法缺乏空间持久性和视觉真实感,难以支持复杂环境中的无缝导航。
- INSPATIO-WORLD提出时空自回归(STAR)架构,结合隐式时空缓存和显式空间约束,实现场景一致性和交互控制。
- 引入联合分布匹配蒸馏(JDMD),利用真实数据分布克服合成数据依赖导致的保真度下降,显著提升空间一致性和交互精度。
📝 摘要(中文)
本文提出INSPATIO-WORLD,一个新颖的实时框架,能够从单个参考视频中恢复和生成高保真、动态交互的场景。该方法的核心是时空自回归(STAR)架构,通过两个紧密耦合的组件实现一致且可控的场景演化:隐式时空缓存将参考和历史观测聚合到潜在的世界表示中,确保长程导航期间的全局一致性;显式空间约束模块强制执行几何结构,并将用户交互转化为精确且物理上合理的相机轨迹。此外,引入联合分布匹配蒸馏(JDMD),通过使用真实世界数据分布作为正则化指导,有效地克服了过度依赖合成数据而导致的保真度下降。大量实验表明,INSPATIO-WORLD在空间一致性和交互精度方面显著优于现有的SOTA模型,在WorldScore-Dynamic基准测试中实时交互方法中排名第一,并为导航从单目视频重建的4D环境建立了一个实用的流程。
🔬 方法详解
问题定义:现有视频生成方法在构建具有空间一致性的世界模型方面面临挑战,尤其是在实时交互场景下,难以保证长期导航过程中的视觉真实感和空间结构的稳定性。过度依赖合成数据进行训练会导致模型在真实场景中泛化能力不足。
核心思路:INSPATIO-WORLD的核心在于利用时空自回归建模,将历史观测和用户交互信息整合到潜在的世界表示中,从而实现对动态场景的实时生成和交互。通过显式地约束空间几何结构,确保生成场景的物理合理性。同时,利用真实数据分布进行蒸馏,提高模型的真实感。
技术框架:INSPATIO-WORLD框架包含以下主要模块:1) 隐式时空缓存(Implicit Spatiotemporal Cache):用于聚合参考视频和历史观测,构建潜在的世界表示,维护全局一致性。2) 显式空间约束模块(Explicit Spatial Constraint Module):用于强制执行几何结构,将用户交互转化为相机轨迹,保证物理合理性。3) 时空自回归生成器(Spatiotemporal Autoregressive Generator):基于STAR架构,根据潜在世界表示和相机轨迹生成视频帧。4) 联合分布匹配蒸馏(Joint Distribution Matching Distillation):利用真实数据分布作为指导,优化生成器。
关键创新:该方法最重要的创新点在于STAR架构,它将隐式时空缓存和显式空间约束相结合,实现了对动态场景的实时、一致和可控的生成。与现有方法相比,INSPATIO-WORLD能够更好地处理长期依赖关系,并保证生成场景的空间合理性。JDMD的使用也显著提高了生成视频的真实感。
关键设计:隐式时空缓存采用循环神经网络(RNN)或Transformer等序列模型进行建模,用于捕捉时间依赖关系。显式空间约束模块利用可微渲染技术,将相机参数和场景几何信息融入生成过程中。联合分布匹配蒸馏通过最小化生成数据和真实数据之间的分布差异,优化生成器。损失函数包括重构损失、对抗损失和感知损失等,用于提高生成视频的质量和真实感。
🖼️ 关键图片
📊 实验亮点
INSPATIO-WORLD在WorldScore-Dynamic基准测试中,实时交互方法中排名第一,显著优于现有SOTA模型。实验结果表明,该方法在空间一致性和交互精度方面均有显著提升。通过消融实验验证了隐式时空缓存、显式空间约束和联合分布匹配蒸馏等关键模块的有效性。定性结果也表明,INSPATIO-WORLD能够生成更逼真、更稳定的动态场景。
🎯 应用场景
INSPATIO-WORLD在虚拟现实、增强现实、游戏开发等领域具有广泛的应用前景。它可以用于构建逼真的虚拟环境,支持用户在其中进行自由探索和交互。此外,该技术还可以应用于机器人导航、自动驾驶等领域,为机器人提供更准确的环境感知和预测能力。未来,该研究有望推动4D世界建模和实时交互技术的发展。
📄 摘要(原文)
Building world models with spatial consistency and real-time interactivity remains a fundamental challenge in computer vision. Current video generation paradigms often struggle with a lack of spatial persistence and insufficient visual realism, making it difficult to support seamless navigation in complex environments. To address these challenges, we propose INSPATIO-WORLD, a novel real-time framework capable of recovering and generating high-fidelity, dynamic interactive scenes from a single reference video. At the core of our approach is a Spatiotemporal Autoregressive (STAR) architecture, which enables consistent and controllable scene evolution through two tightly coupled components: Implicit Spatiotemporal Cache aggregates reference and historical observations into a latent world representation, ensuring global consistency during long-horizon navigation; Explicit Spatial Constraint Module enforces geometric structure and translates user interactions into precise and physically plausible camera trajectories. Furthermore, we introduce Joint Distribution Matching Distillation (JDMD). By using real-world data distributions as a regularizing guide, JDMD effectively overcomes the fidelity degradation typically caused by over-reliance on synthetic data. Extensive experiments demonstrate that INSPATIO-WORLD significantly outperforms existing state-of-the-art (SOTA) models in spatial consistency and interaction precision, ranking first among real-time interactive methods on the WorldScore-Dynamic benchmark, and establishing a practical pipeline for navigating 4D environments reconstructed from monocular videos.