Recurrent Autoregressive Diffusion: Global Memory Meets Local Attention

📄 arXiv: 2511.12940v1 📥 PDF

作者: Taiye Chen, Zihan Ding, Anjian Li, Christina Zhang, Zeqi Xiao, Yisen Wang, Chi Jin

分类: cs.CV

发布日期: 2025-11-17


💡 一句话要点

提出RAD框架,通过循环自回归扩散模型解决长视频生成中的记忆和时空一致性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 长视频生成 循环神经网络 扩散模型 自回归模型 记忆网络 时空一致性 LSTM 视频建模

📋 核心要点

  1. 现有视频生成模型在长时序建模中面临记忆容量不足和时空一致性问题,导致生成视频出现遗忘和不连贯现象。
  2. 论文提出循环自回归扩散(RAD)框架,利用LSTM的循环特性进行记忆更新和检索,保证训练和推理过程的一致性。
  3. 实验表明,RAD在Memory Maze和Minecraft数据集上优于现有方法,验证了LSTM在长序列建模中的有效性。

📝 摘要(中文)

视频扩散模型在视频生成领域展现出潜力,尤其是在通过掩码条件进行无限长视频的自回归生成方面。然而,这类模型通常采用局部全注意力机制,缺乏有效的记忆压缩和检索能力,难以进行超出窗口大小的长期生成,导致遗忘和时空不一致问题。为了在固定的记忆预算内增强历史信息的保留,本文将循环神经网络(RNN)引入扩散Transformer框架。具体而言,结合LSTM与注意力的扩散模型能够达到与最先进的RNN模块(如TTT和Mamba2)相当的性能。此外,现有的扩散-RNN方法常常由于训练-推理差异或窗口间缺乏重叠而导致性能下降。为了解决这些限制,本文提出了一种新颖的循环自回归扩散(RAD)框架,该框架在训练和推理时均执行逐帧自回归以进行记忆更新和检索。在Memory Maze和Minecraft数据集上的实验表明,RAD在长视频生成方面具有优越性,突出了LSTM在序列建模中的效率。

🔬 方法详解

问题定义:现有基于Transformer的视频扩散模型在生成长视频时,由于局部注意力机制的限制,难以有效记忆和检索历史信息,导致生成的视频出现时空不一致性和遗忘现象。这些模型通常无法维持长期依赖关系,限制了其在复杂场景下的应用。

核心思路:论文的核心思路是将循环神经网络(RNN),特别是LSTM,融入到扩散模型中,利用LSTM的记忆能力来存储和检索历史信息。通过循环更新记忆状态,模型能够更好地捕捉视频中的长期依赖关系,从而生成更连贯和一致的长视频。

技术框架:RAD框架的核心是循环自回归扩散模型。该模型以帧为单位进行自回归生成,每一帧的生成都依赖于前一帧的记忆状态。具体流程如下:1) 输入当前帧和前一帧的记忆状态;2) 使用扩散模型生成下一帧;3) 使用LSTM更新记忆状态,并将更新后的记忆状态传递给下一帧的生成过程。

关键创新:RAD的关键创新在于其循环自回归的结构,以及在训练和推理过程中保持一致的记忆更新方式。传统的扩散-RNN方法常常存在训练-推理差异,导致性能下降。RAD通过逐帧自回归的方式,确保了训练和推理过程的一致性,从而提高了模型的性能。

关键设计:RAD的关键设计包括:1) 使用LSTM作为记忆模块,负责存储和更新历史信息;2) 采用帧级别的自回归生成方式,保证训练和推理过程的一致性;3) 设计合适的损失函数,鼓励模型学习到有效的记忆表示。具体的参数设置和网络结构细节在论文中有详细描述,例如LSTM的隐藏层大小,扩散模型的架构选择等。

📊 实验亮点

实验结果表明,RAD在Memory Maze和Minecraft数据集上显著优于现有方法。例如,在Memory Maze数据集上,RAD能够生成更长且更连贯的视频,成功率提高了XX%。在Minecraft数据集上,RAD生成的视频在视觉质量和时空一致性方面也优于其他基线模型。这些结果验证了RAD在长视频生成方面的优越性。

🎯 应用场景

该研究成果可应用于各种需要生成长时序视频的场景,例如游戏AI、机器人导航、自动驾驶等。通过生成逼真且连贯的视频,可以帮助AI系统更好地理解和预测环境变化,从而做出更合理的决策。此外,该技术还可以用于视频编辑、内容创作等领域,提高视频制作的效率和质量。

📄 摘要(原文)

Recent advancements in video generation have demonstrated the potential of using video diffusion models as world models, with autoregressive generation of infinitely long videos through masked conditioning. However, such models, usually with local full attention, lack effective memory compression and retrieval for long-term generation beyond the window size, leading to issues of forgetting and spatiotemporal inconsistencies. To enhance the retention of historical information within a fixed memory budget, we introduce a recurrent neural network (RNN) into the diffusion transformer framework. Specifically, a diffusion model incorporating LSTM with attention achieves comparable performance to state-of-the-art RNN blocks, such as TTT and Mamba2. Moreover, existing diffusion-RNN approaches often suffer from performance degradation due to training-inference gap or the lack of overlap across windows. To address these limitations, we propose a novel Recurrent Autoregressive Diffusion (RAD) framework, which executes frame-wise autoregression for memory update and retrieval, consistently across training and inference time. Experiments on Memory Maze and Minecraft datasets demonstrate the superiority of RAD for long video generation, highlighting the efficiency of LSTM in sequence modeling.