RELIC: Interactive Video World Model with Long-Horizon Memory
作者: Yicong Hong, Yiqun Mei, Chongjian Ge, Yiran Xu, Yang Zhou, Sai Bi, Yannick Hold-Geoffroy, Mike Roberts, Matthew Fisher, Eli Shechtman, Kalyan Sunkavalli, Feng Liu, Zhengqi Li, Hao Tan
分类: cs.CV
发布日期: 2025-12-03
备注: 22 pages
💡 一句话要点
RELIC:基于长时记忆的交互式视频世界模型,实现实时场景探索
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 交互式世界模型 长时记忆 视频生成 自回归模型 扩散模型 蒸馏训练 实时渲染
📋 核心要点
- 现有交互式世界模型难以同时兼顾实时性、长时记忆和精确控制,长时记忆机制常降低实时性能。
- RELIC通过压缩历史潜在令牌,并结合相对动作和绝对相机姿态,在KV缓存中实现高效的长时记忆。
- RELIC在Unreal Engine数据集上训练,实现了16 FPS的实时生成,并在多个指标上超越现有方法。
📝 摘要(中文)
本文提出RELIC,一个统一的框架,旨在解决交互式世界模型中的三个关键挑战:实时长时程流处理、一致的空间记忆和精确的用户控制。RELIC基于自回归视频扩散蒸馏技术,利用压缩的历史潜在令牌(包含相对动作和绝对相机姿态)在KV缓存中表示长时程记忆。这种紧凑的、相机感知的记忆结构支持隐式的3D一致性内容检索,并以最小的计算开销强制执行长期连贯性。此外,本文还对双向教师视频模型进行微调,以生成超出其原始5秒训练范围的序列,并使用一种新的、内存高效的自强制范式将其转换为因果学生生成器,从而实现对长时程教师模型以及学生模型自rollout的完整上下文蒸馏。RELIC是一个140亿参数的模型,在精心设计的Unreal Engine渲染数据集上进行训练,实现了16 FPS的实时生成,同时在动作跟随、长期流稳定性以及空间记忆检索方面表现出比以往工作更优的性能。这些能力使RELIC成为下一代交互式世界建模的坚实基础。
🔬 方法详解
问题定义:现有交互式世界模型难以同时满足实时性、长时程和精确控制三个关键要素。具体来说,长时记忆机制的引入往往会显著降低模型的实时生成速度,而缺乏空间一致性的记忆会导致生成视频的不稳定和不连贯。因此,如何构建一个既能进行长时程推理,又能保持实时性和空间一致性的交互式世界模型是一个重要的挑战。
核心思路:RELIC的核心思路是利用压缩的、相机感知的历史潜在令牌来表示长时记忆,并将其存储在KV缓存中。通过将相对动作和绝对相机姿态编码到潜在令牌中,模型可以隐式地进行3D一致性内容检索,并以最小的计算开销保持长期连贯性。此外,通过自强制蒸馏,将双向教师模型的知识迁移到因果学生模型,从而扩展生成序列的长度。
技术框架:RELIC的整体框架包含以下几个主要模块:1) 视频编码器:将输入图像编码为潜在表示。2) 记忆模块:使用KV缓存存储压缩的历史潜在令牌,包含相对动作和绝对相机姿态。3) 视频解码器:基于当前图像和记忆模块中的信息,生成下一帧图像。4) 教师-学生蒸馏模块:利用双向教师模型和自强制范式,训练因果学生模型,以生成更长的视频序列。整个流程是,给定初始图像和文本描述,用户通过交互控制(例如,动作指令),模型不断生成新的视频帧,并更新记忆模块,从而实现长时程的场景探索。
关键创新:RELIC的关键创新在于其紧凑的、相机感知的记忆结构和自强制蒸馏方法。传统的长时记忆方法通常需要大量的计算资源,而RELIC通过压缩潜在令牌和利用KV缓存,显著降低了计算开销。自强制蒸馏方法则允许模型在长时程上进行训练,从而生成更长的、更连贯的视频序列。此外,将相机姿态信息融入到记忆中,有助于模型更好地理解场景的3D结构,从而生成更逼真的图像。
关键设计:RELIC使用了一个140亿参数的模型,并在Unreal Engine渲染的数据集上进行训练。记忆模块使用KV缓存来存储历史潜在令牌,每个令牌包含相对动作和绝对相机姿态。自强制蒸馏方法使用一个双向教师模型和一个因果学生模型,通过最小化教师模型和学生模型之间的差异来训练学生模型。损失函数包括图像重建损失、对抗损失和KL散度损失等。
📊 实验亮点
RELIC在Unreal Engine渲染的数据集上进行了评估,实验结果表明,RELIC能够以16 FPS的实时速度生成高质量的视频序列。与现有方法相比,RELIC在动作跟随、长期流稳定性以及空间记忆检索方面表现出显著的优势。例如,RELIC能够更准确地响应用户的动作指令,生成更稳定的视频序列,并更好地记住场景中的物体和位置。
🎯 应用场景
RELIC在虚拟现实、游戏开发、机器人导航等领域具有广泛的应用前景。它可以用于创建逼真的、可交互的虚拟环境,允许用户自由探索和交互。在游戏开发中,RELIC可以用于生成动态的游戏场景和角色行为。在机器人导航中,RELIC可以帮助机器人理解周围环境,并进行自主导航。未来,RELIC有望成为下一代交互式世界建模的基础。
📄 摘要(原文)
A truly interactive world model requires three key ingredients: real-time long-horizon streaming, consistent spatial memory, and precise user control. However, most existing approaches address only one of these aspects in isolation, as achieving all three simultaneously is highly challenging-for example, long-term memory mechanisms often degrade real-time performance. In this work, we present RELIC, a unified framework that tackles these three challenges altogether. Given a single image and a text description, RELIC enables memory-aware, long-duration exploration of arbitrary scenes in real time. Built upon recent autoregressive video-diffusion distillation techniques, our model represents long-horizon memory using highly compressed historical latent tokens encoded with both relative actions and absolute camera poses within the KV cache. This compact, camera-aware memory structure supports implicit 3D-consistent content retrieval and enforces long-term coherence with minimal computational overhead. In parallel, we fine-tune a bidirectional teacher video model to generate sequences beyond its original 5-second training horizon, and transform it into a causal student generator using a new memory-efficient self-forcing paradigm that enables full-context distillation over long-duration teacher as well as long student self-rollouts. Implemented as a 14B-parameter model and trained on a curated Unreal Engine-rendered dataset, RELIC achieves real-time generation at 16 FPS while demonstrating more accurate action following, more stable long-horizon streaming, and more robust spatial-memory retrieval compared with prior work. These capabilities establish RELIC as a strong foundation for the next generation of interactive world modeling.