Robust Dreamer: Deviation-Aware Latent Gaussian Memory for Action-Controlled AR Video Generation
作者: Hanlin Chen, Jiaxin Wei, Xibin Song, Yifu Wang, Steve Wang, Hongdong Li, Pan Ji, Gim Hee Lee
分类: cs.CV
发布日期: 2026-05-29
💡 一句话要点
Robust Dreamer:提出偏差感知潜在高斯记忆,用于动作控制的AR视频生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: AR视频生成 动作控制 长时域生成 潜在高斯记忆 偏差学习 3D一致性 扩散模型
📋 核心要点
- 现有方法在长时AR视频生成中,由于潜在变量的重复编解码和训练推理差异,导致视觉效果和3D一致性出现灾难性漂移。
- Robust Dreamer通过引入潜在高斯记忆,避免了重复VAE转换带来的信息损失,并利用偏差学习来弥合训练和推理之间的差距。
- 实验结果表明,Robust Dreamer在ScanNet、DL3DV和OmniWorldGame数据集上实现了最先进的长时域性能。
📝 摘要(中文)
本文提出了一种用于交互式世界模拟的帧级动作控制图像到视频生成框架,旨在解决长时自回归展开中保持视觉保真度和3D一致性的挑战。现有3D感知方法常因“潜在-RGB循环”导致的信息损失和“无误差假设”造成的训练-推理差距而遭受灾难性漂移。为此,我们提出了Robust Dreamer,一个围绕如何设计3D记忆以及如何稳健地使用它的记忆增强框架。我们引入了潜在高斯记忆,它将生成过程中继承的扩散潜在变量锚定到高斯基元,并通过潜在空间高斯溅射来回忆它们。这提供了密集的、几何感知的、视图对齐的条件,同时避免了重复VAE转换带来的累积退化。此外,我们提出了具有动态偏差档案的偏差学习,通过一步近似合成展开引起的潜在偏差,按自回归阶段和去噪时间戳存储它们,并在训练期间将它们注入到历史记忆中。这使生成器暴露于真实的损坏记忆状态,并在推理之前进行内部校正。在ScanNet、DL3DV和OmniWorldGame上的实验证明了最先进的长时域性能。
🔬 方法详解
问题定义:论文旨在解决动作控制的AR视频生成任务中,长时自回归展开过程中视觉保真度和3D一致性难以维持的问题。现有方法,特别是3D感知的生成模型,容易受到“潜在-RGB循环”带来的信息损失以及训练和推理阶段记忆状态差异的影响,导致生成结果出现灾难性漂移。
核心思路:论文的核心思路是设计一种鲁棒的记忆机制,该机制能够避免信息损失,并能适应推理过程中可能出现的记忆偏差。具体来说,通过引入“潜在高斯记忆”来存储和回忆几何信息,并利用“偏差学习”来模拟和纠正推理过程中可能出现的记忆偏差。
技术框架:Robust Dreamer框架包含以下主要模块:1) 潜在高斯记忆:用于存储和回忆几何信息的记忆模块,基于高斯基元和潜在空间高斯溅射实现。2) 扩散模型:用于生成视频帧的主干网络,以潜在高斯记忆作为条件。3) 偏差学习模块:用于学习和模拟推理过程中可能出现的记忆偏差,并将其注入到训练过程中。4) 动态偏差档案:用于存储不同自回归阶段和去噪时间戳的偏差信息。
关键创新:论文的关键创新在于:1) 提出了“潜在高斯记忆”,避免了重复VAE转换带来的信息损失,提供了更密集的、几何感知的、视图对齐的条件信息。2) 提出了“偏差学习”,通过动态偏差档案模拟推理过程中的记忆偏差,提高了模型的鲁棒性。
关键设计:1) 潜在高斯记忆使用高斯基元表示几何信息,并通过高斯溅射进行回忆,避免了离散化带来的信息损失。2) 偏差学习通过一步近似合成展开引起的潜在偏差,并按自回归阶段和去噪时间戳存储,以便在训练过程中注入到历史记忆中。3) 损失函数包括重建损失、对抗损失和偏差学习损失,用于优化生成器和偏差学习模块。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Robust Dreamer在ScanNet、DL3DV和OmniWorldGame数据集上均取得了state-of-the-art的性能。相较于现有方法,Robust Dreamer能够生成更长时域、视觉效果更逼真、3D一致性更高的视频内容。尤其是在长时域生成任务中,Robust Dreamer的性能提升尤为显著。
🎯 应用场景
该研究成果可应用于交互式世界模拟、虚拟现实、增强现实、游戏开发等领域。通过动作控制生成逼真且一致的视频内容,可以为用户提供更具沉浸感和互动性的体验。此外,该技术还可用于机器人导航、自动驾驶等领域,帮助机器人理解和预测周围环境的变化。
📄 摘要(原文)
Frame-wise action-controlled image-to-video generation is a promising paradigm for interactive world simulation, where each control signal should elicit an immediate visual response. However, maintaining visual fidelity and 3D consistency over long autoregressive rollouts remains challenging. Existing 3D-aware methods often suffer from catastrophic drift due to two impediments: information loss from \textit{Latent--RGB Cycling}, where generated latents are repeatedly decoded to RGB and re-encoded for future conditioning, and the training--inference gap induced by the \textit{error-free hypothesis}, where clean training memory fails to match prediction-corrupted inference memory. To address these challenges, we present \textbf{Robust Dreamer}, a memory-augmented framework built around how to design 3D memory and how to use it robustly. First, we introduce \textbf{Latent Gaussian Memory}, which anchors diffusion latents inherited from the generation process to Gaussian primitives and recalls them via latent-space Gaussian splatting. This provides dense, geometry-aware, view-aligned conditioning while avoiding accumulated degradation from repeated VAE conversion. Second, we propose \textbf{Deviation Learning with Dynamic Deviation Archive}, which synthesizes rollout-induced latent deviations through a one-step approximation, stores them by autoregressive stage and denoising timestamp, and injects them into historical memory during training. This exposes the generator to realistic corrupted memory states and teaches internal correction before inference. Experiments on ScanNet, DL3DV, and OmniWorldGame demonstrate state-of-the-art long-horizon performance.