Geometry-Aware Implicit Memory for Video World Models
作者: Zhengxuan Wei, Xu Guo, Xinghui Li, Xunzhi Xiang, Min Wei, Yiran Zhu, Qiulin Wang, Xintao Wang, Pengfei Wan, Xiangwang Hou, Qi Fan
分类: cs.CV
发布日期: 2026-06-01
备注: Project page: https://gim-world.github.io/
💡 一句话要点
提出GIM-World,利用几何感知隐式记忆提升视频世界模型的长时序一致性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频世界模型 隐式记忆 几何感知 长时程预测 Transformer 3D场景重建 机器人导航
📋 核心要点
- 现有视频世界模型在长时序推演中,难以有效记忆和利用历史信息,导致几何和视觉一致性下降。
- GIM-World通过几何感知的隐式记忆,将历史信息压缩成紧凑的记忆token,并显式地编码跨视角的场景几何信息。
- 实验表明,GIM-World在长时程推演中,能够显著提升几何和视觉一致性,优于显式和隐式记忆基线。
📝 摘要(中文)
视频世界模型旨在模拟可控的视觉环境,但长时程推演依赖于模型在观测离开其原生上下文窗口后所记忆的内容。显式记忆保留帧或在线3D重建,但可能遭受启发式检索错误、冗余外观存储或重建伪影。隐式记忆将历史压缩成紧凑状态,但现有设计没有明确约束以编码跨视角场景几何。我们提出了GIM-World,一个用于视频世界模型的几何感知隐式记忆框架。一个轻量级Transformer编码器将可变长度的历史压缩成固定大小的记忆token,一个可相机查询的几何头在训练期间将3D场景结构从冻结的基础模型提炼到记忆中,一个信息引导的剪枝规则保持编码成本随历史增长而受限。几何教师在推理时被丢弃,留下一个轻量级记忆模块。在MIND上的实验表明,GIM-World比显式和隐式记忆基线更好地保持了长时程几何和视觉一致性。
🔬 方法详解
问题定义:视频世界模型需要记住过去的信息来进行长时程的预测和控制。现有的显式记忆方法(如存储关键帧或3D重建)存在检索错误、存储冗余和重建伪影等问题。隐式记忆方法虽然紧凑,但缺乏对场景几何信息的显式建模,导致长时程预测中几何一致性较差。
核心思路:GIM-World的核心思路是利用几何信息来指导隐式记忆的学习。通过引入一个几何头,从预训练的视觉基础模型中提取3D场景结构,并将其提炼到隐式记忆中。这样,模型就能更好地理解和记忆场景的几何信息,从而提升长时程预测的几何一致性。
技术框架:GIM-World的整体框架包括三个主要模块:1) 一个轻量级的Transformer编码器,用于将可变长度的历史信息压缩成固定大小的记忆token;2) 一个可相机查询的几何头,用于从冻结的视觉基础模型中提取3D场景结构,并将其作为几何先验知识;3) 一个信息引导的剪枝规则,用于控制编码成本,防止历史信息无限增长。在训练阶段,几何头作为教师网络,指导隐式记忆的学习。在推理阶段,几何头被移除,只保留轻量级的记忆模块。
关键创新:GIM-World的关键创新在于引入了几何感知的隐式记忆。与传统的隐式记忆方法不同,GIM-World显式地利用几何信息来指导记忆的学习,从而提升了长时程预测的几何一致性。此外,信息引导的剪枝规则能够有效地控制编码成本,使得模型能够处理更长的历史信息。
关键设计:GIM-World的关键设计包括:1) 使用Transformer编码器来压缩历史信息,能够有效地捕捉时间依赖关系;2) 使用可相机查询的几何头,能够从不同的视角提取3D场景结构;3) 使用信息引导的剪枝规则,能够根据信息量的大小来选择性地保留历史信息。损失函数包括重构损失和几何一致性损失,用于约束模型的学习。
🖼️ 关键图片
📊 实验亮点
在MIND数据集上的实验结果表明,GIM-World在长时程推演中,能够显著提升几何和视觉一致性。与显式记忆基线相比,GIM-World减少了检索错误和存储冗余。与隐式记忆基线相比,GIM-World更好地保持了场景的几何结构,提升了预测的准确性。
🎯 应用场景
GIM-World可应用于机器人导航、自动驾驶、视频游戏等领域,提升智能体在复杂环境中的长期规划和决策能力。通过更精确地模拟和预测环境变化,GIM-World能够帮助智能体更好地理解周围世界,从而做出更安全、更有效的行动。
📄 摘要(原文)
Video world models aim to simulate controllable visual environments, but long-horizon rollouts depend on what the model remembers after observations leave its native context window. Explicit memories retain frames or online 3D reconstructions, which can suffer from heuristic retrieval errors, redundant appearance storage, or reconstruction artifacts. Implicit memories compress history into a compact state, but existing designs are not explicitly constrained to encode cross-view scene geometry. We propose GIM-World, a geometry-aware implicit memory framework for video world models. A lightweight transformer encoder compresses variable-length history into fixed-size memory tokens, a camera-queryable geometry head distills 3D scene structure from a frozen foundation model into the memory during training, and an information-guided pruning rule keeps encoding cost bounded as history grows. The geometry teacher is discarded at inference, leaving a lightweight memory module. Experiments on MIND show that GIM-World better preserves long-horizon geometric and visual consistency than both explicit- and implicit-memory baselines.