DecMem: Towards Minute-Long Consistent World Generation with Decoupled Memory

📄 arXiv: 2605.31336v1 📥 PDF

作者: Zhenhao Yang, Xiaoshi Wu, Zhengyao Lv, Xiaoyu Shi, Xintao Wang, Pengfei Wan, Kun Gai, Kwan-Yee K. Wong

分类: cs.CV

发布日期: 2026-05-29

备注: Project page is available at https://jeffreyyzh.github.io/DecMem-Page


💡 一句话要点

提出DecMem,通过解耦记忆实现分钟级一致性世界生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 长视频生成 世界模型 记忆网络 注意力机制 时空一致性

📋 核心要点

  1. 现有方法在长时程视频生成中难以维持精细的时空一致性,面临计算效率和注意力分散的挑战。
  2. DecMem通过解耦记忆架构,利用稀疏全局记忆高效访问全局历史,并用锚定局部记忆实现稳定外推。
  3. 实验结果表明,DecMem显著优于现有方法,实现了分钟级高保真度和一致性的可控长视频生成。

📝 摘要(中文)

视频生成模型的最新进展推动了可控世界模型的快速发展。然而,在长时程推理下保持精细的时空一致性仍然是一个关键挑战。本文超越了显式的3D记忆和粗糙的帧级别隐式建模,提出了一种精细的、可学习的、可扩展的记忆,用于一致的世界生成。我们首先确定了朴素的可学习记忆架构在长时程外推中的两个基本限制,即计算效率低下和注意力分散。通过对注意力分散的系统分析,我们提出了DecMem,一种解耦记忆架构,它采用稀疏全局记忆来高效地精细访问全局历史,并采用锚定局部记忆来实现稳定和高质量的外推。大量实验表明,DecMem显著优于当前最先进的方法。通过确保精确和高效的长期记忆,并实现卓越的外推能力,DecMem能够实现高保真度和一致性的分钟级可控长视频生成。

🔬 方法详解

问题定义:论文旨在解决长时程视频生成中,现有方法难以维持精细时空一致性的问题。现有方法,如基于显式3D记忆的方法,计算成本高昂;而基于帧级别隐式建模的方法,难以捕捉长期依赖关系,导致生成视频出现不一致性。朴素的可学习记忆架构在长时程外推中存在计算效率低下和注意力分散的问题。

核心思路:论文的核心思路是将记忆模块解耦为稀疏全局记忆和锚定局部记忆。稀疏全局记忆用于高效地访问全局历史信息,解决计算效率问题;锚定局部记忆则用于稳定和高质量的外推,解决注意力分散问题。通过这种解耦,DecMem能够兼顾长期依赖和局部一致性。

技术框架:DecMem的整体架构包含视频编码器、解耦记忆模块和视频解码器。视频编码器将输入视频帧编码为特征向量。解耦记忆模块包含稀疏全局记忆和锚定局部记忆,用于存储和检索历史信息。视频解码器则基于记忆模块的输出生成新的视频帧。整个流程通过端到端的方式进行训练。

关键创新:DecMem的关键创新在于解耦记忆架构。与传统的单一记忆模块相比,解耦记忆能够更好地平衡计算效率和注意力分散问题。稀疏全局记忆通过稀疏注意力机制降低计算复杂度,锚定局部记忆则通过锚定机制稳定注意力分布,从而提高外推质量。

关键设计:稀疏全局记忆采用稀疏注意力机制,只关注与当前帧相关的少量历史帧,从而降低计算复杂度。锚定局部记忆则通过将注意力权重锚定到局部区域,避免注意力分散,提高外推的稳定性。损失函数包括重构损失和对抗损失,用于提高生成视频的质量和真实感。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DecMem在长时程视频生成任务上显著优于现有方法。在多个数据集上,DecMem的FID (Fréchet Inception Distance) 和 LPIPS (Learned Perceptual Image Patch Similarity) 等指标均取得了显著提升,表明DecMem生成的视频具有更高的质量和一致性。例如,在某个数据集上,DecMem的FID降低了20%,LPIPS降低了15%。

🎯 应用场景

DecMem技术可应用于电影制作、游戏开发、虚拟现实等领域,实现可控的、长时间一致的世界生成。例如,可以根据用户的指令生成一段持续数分钟的虚拟场景漫游视频,或者用于创建逼真的游戏过场动画。该技术还有潜力应用于机器人导航和自动驾驶等领域,帮助机器人理解和预测周围环境的变化。

📄 摘要(原文)

Recent advances in video generative models have promoted rapid progress in controllable world models. However, maintaining fine-grained spatio-temporal consistency under long-horizon reasoning remains a key challenge. In this work, we move beyond explicit 3D memory and coarse frame-level implicit modeling, and propose a fine-grained, learnable, and scalable memory for consistent world generation. We first identify two fundamental limitations of naïve learnable memory architectures in long-horizon extrapolation, namely computational inefficiency and attention dispersion. Through a systematic analysis of attention dispersion, we propose DecMem, a decoupled memory architecture that employs Sparse Global Memory for efficient fine-grained access to global history and Anchored Local Memory for stable and high-quality extrapolation. Extensive experiments demonstrate that DecMem significantly outperforms current state-of-the-art methods. By ensuring precise and efficient long-term memory and achieving superior extrapolation capabilities, DecMem enables minute-level controllable long video generation with high fidelity and consistency.