Retrieve What's Missing: Coverage-Maximizing Retrieval for Consistent Long Video Generation

📄 arXiv: 2606.02479v1 📥 PDF

作者: Minseok Joo, Dogyun Park, Taehoon Lee, Kyujin Lee, Hyunwoo J. Kim

分类: cs.CV

发布日期: 2026-06-01

备注: 19 pages, 10 figures, 5 tables


💡 一句话要点

提出COVRAG,通过最大化覆盖率检索增强长视频生成的一致性

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 长视频生成 几何一致性 内存检索 3D先验 覆盖率最大化

📋 核心要点

  1. 长视频生成面临长期几何一致性挑战,现有方法在像素级可见性推理或计算成本上存在不足。
  2. COVRAG利用预训练3D先验构建轻量级目标视图覆盖图,并通过最大化残余覆盖增益迭代检索帧。
  3. 实验表明,COVRAG在RealEstate10K和DL3DV10K数据集上,提升了长时程几何一致性并保持了低延迟。

📝 摘要(中文)

长时程自回归视频生成中,保持长期几何一致性仍然是一个挑战。内存增强生成模型通过检索历史帧来解决这个问题,但其有效性取决于两个关键设计选择:什么3D几何证据应该代表过去的观察,以及如何从这些证据中选择记忆帧。现有方法通常依赖于相机姿态或视场重叠,这些方法虽然轻量级,但过于粗糙,无法推理像素级的可见性,或者使用显式的3D重建,这提供了细粒度的证据,但长期维护成本很高。我们提出了Coverage-Maximizing Retrieval-Augmented Generation (COVRAG),这是一个基于深度的内存检索框架,它使用预训练的3D先验来构建目标视图覆盖图,作为轻量级的3D内存证据。对于帧选择,COVRAG最大化残余覆盖增益,迭代地检索解释目标视图区域的帧,这些区域未被当前上下文或先前选择的记忆覆盖。为了提高长视频生成的可扩展性,我们引入了滑动窗口深度缓存,以实现高效的几何估计。在RealEstate10K和DL3DV10K上的实验表明,与基线相比,COVRAG在保持低延迟的同时,提高了长时程几何一致性。

🔬 方法详解

问题定义:长视频生成任务中,如何保证生成视频的长期几何一致性是一个关键问题。现有方法,如基于相机姿态或视场重叠的方法,无法进行像素级的可见性推理,而显式3D重建方法计算成本过高,难以维护长时程的一致性。这些痛点限制了长视频生成模型的实用性。

核心思路:COVRAG的核心思路是利用预训练的3D先验知识,构建轻量级的目标视图覆盖图,作为3D几何信息的表示。通过最大化残余覆盖增益,迭代地选择能够覆盖当前上下文和已选记忆帧未覆盖区域的帧,从而实现对场景的完整理解和一致性维护。这种方法在计算效率和几何推理能力之间取得了平衡。

技术框架:COVRAG框架主要包含以下几个模块:1) 深度估计模块:利用预训练的3D先验模型(如深度估计网络)从历史帧中估计深度信息。2) 目标视图覆盖图构建模块:将深度信息投影到目标视图,构建目标视图的覆盖图,表示哪些区域已经被覆盖。3) 帧选择模块:通过最大化残余覆盖增益,迭代地选择能够最大程度覆盖未覆盖区域的帧。4) 生成模块:利用选择的帧和当前上下文生成新的视频帧。为了提高可扩展性,还引入了滑动窗口深度缓存机制。

关键创新:COVRAG的关键创新在于:1) 使用目标视图覆盖图作为轻量级的3D几何表示,避免了昂贵的3D重建。2) 提出最大化残余覆盖增益的帧选择策略,能够有效地选择信息量最大的帧。3) 引入滑动窗口深度缓存,提高了长视频生成的可扩展性。与现有方法相比,COVRAG在几何一致性和计算效率之间取得了更好的平衡。

关键设计:1) 目标视图覆盖图的分辨率是一个关键参数,需要根据场景的复杂度和计算资源进行调整。2) 残余覆盖增益的计算方式,例如可以使用像素级别的覆盖率或者更复杂的度量方式。3) 滑动窗口深度缓存的大小需要根据视频的长度和计算资源进行调整,以保证深度信息的有效性和计算效率。损失函数方面,可以使用对抗损失、感知损失等来提高生成视频的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,COVRAG在RealEstate10K和DL3DV10K数据集上,显著提高了长视频生成的几何一致性。与基线方法相比,COVRAG在保持低延迟的同时,能够生成更逼真、更稳定的视频内容。具体的性能数据(例如FID分数、几何误差等)在论文中有详细展示,证明了COVRAG的有效性。

🎯 应用场景

COVRAG具有广泛的应用前景,例如虚拟现实内容生成、游戏场景自动生成、电影特效制作等。该技术可以用于创建具有长期几何一致性的高质量视频内容,提升用户体验。此外,COVRAG还可以应用于机器人导航和场景理解等领域,帮助机器人更好地理解周围环境。

📄 摘要(原文)

Maintaining long-term geometric consistency remains challenging for long-horizon autoregressive video generation. Memory-augmented generative models address this by retrieving historical frames, but their effectiveness depends on two key design choices: what 3D-geometric evidence should represent past observations, and how memory frames should be selected from this evidence. Existing methods often rely on camera poses or field-of-view overlap, which are lightweight but too coarse to reason about pixel-wise visibility, or use explicit 3D reconstruction, which provides fine-grained evidence but is costly to maintain over long rollouts. We propose Coverage-Maximizing Retrieval-Augmented Generation (COVRAG), a depth-based memory retrieval framework that uses pretrained 3D priors to construct a target-view coverage map as lightweight 3D memory evidence. For frame selection, COVRAG maximizes residual coverage gain, iteratively retrieving frames that explain target-view regions not covered by the current context or previously selected memories. To improve scalability in long-video generation, we introduce sliding-window depth caching for efficient geometry estimation. Experiments on RealEstate10K and DL3DV10K show that COVRAG improves long-horizon geometric consistency while maintaining low latency compared to baselines.