Latent Spatial Memory for Video World Models

📄 arXiv: 2606.09828v1 📥 PDF

作者: Weijie Wang, Haoyu Zhao, Yifan Yang, Feng Chen, Zeyu Zhang, Yefei He, Zicheng Duan, Donny Y. Chen, Yuqing Yang, Bohan Zhuang

分类: cs.CV

发布日期: 2026-06-08

备注: Project Page: https://aka.ms/latent-spatial-memory, Code: https://github.com/microsoft/LatentSpatialMemory


💡 一句话要点

提出潜在空间记忆以解决视频世界模型中的3D一致性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频生成 潜在空间记忆 3D一致性 深度学习 扩散模型

📋 核心要点

  1. 现有视频世界模型依赖显式点云记忆,导致计算开销大且信息损失严重。
  2. 提出潜在空间记忆,直接在潜在空间中存储场景信息,避免像素空间重建。
  3. 实验结果显示,潜在空间记忆在视频生成速度和内存占用上均有显著提升。

📝 摘要(中文)

视频世界模型通常依赖于在RGB空间中构建的显式点云记忆,以保持生成帧之间的3D空间一致性。然而,这种设计计算开销大,且在像素空间的往返过程中会丢失丰富的特征。本文提出了潜在空间记忆,用于视频世界模型,直接在扩散潜在空间中存储场景信息,避免了像素空间重建。基于此,我们提出了Mirage,一个通过深度引导反投影将潜在标记提升到3D并通过直接潜在空间变形合成新视图的框架。实验表明,潜在空间记忆在视频生成速度上提高了10.57倍,并在内存占用上减少了55倍,相较于显式3D基线,表现出色。

🔬 方法详解

问题定义:本文解决视频世界模型中3D空间一致性的问题,现有方法依赖显式点云记忆,导致计算开销大且信息损失。

核心思路:提出潜在空间记忆,直接在扩散潜在空间中存储场景信息,避免了像素空间的重建过程,从而减少了信息损失和计算负担。

技术框架:整体架构包括潜在空间记忆的构建和查询两个主要模块。通过深度引导反投影将潜在标记提升到3D,并通过直接潜在空间变形合成新视图。

关键创新:最重要的创新在于引入潜在空间记忆,消除了像素空间重建带来的信息损失,并显著降低了计算复杂度。

关键设计:在设计中,采用了深度引导反投影技术,确保潜在标记的3D提升准确性,同时优化了潜在空间的查询过程,以提高生成效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,潜在空间记忆在视频生成速度上提高了10.57倍,并在内存占用上减少了55倍,相较于显式3D基线,展现出卓越的性能和效率。

🎯 应用场景

该研究在视频生成、虚拟现实和增强现实等领域具有广泛的应用潜力。通过提高生成速度和降低内存占用,能够为实时应用提供更高效的解决方案,推动相关技术的发展与普及。

📄 摘要(原文)

Video world models that maintain 3D spatial consistency across generated frames typically rely on explicit point cloud memory constructed in RGB space. This design is both computationally expensive, requiring repeated rendering and VAE encoding, and inherently lossy, as the round trip through pixel space discards rich features of the learned latent representation. In this paper, we introduce \emph{latent spatial memory} for video world models, a persistent 3D cache that stores scene information directly in the diffusion latent space, avoiding pixel-space reconstruction. Building on this, we propose Mirage, a latent-space spatial memory framework that constructs the memory by lifting latent tokens into 3D via depth-guided back-projection and queries it by synthesizing novel views through direct latent-space warping. This unified formulation eliminates both the information loss of pixel-space reconstruction and the computational burden of repeated encoding and rendering. Experiments show that latent spatial memory achieves up to \textbf{10.57}$\times$ faster end-to-end video generation and \textbf{55}$\times$ reduction in memory footprint relative to explicit 3D baselines. Leveraging the geometric prior of the diffusion model, Mirage attains state-of-the-art performance on WorldScore and strong reconstruction quality on RealEstate10K.