Retrieve What's Missing: Coverage-Maximizing Retrieval for Consistent Long Video Generation

作者: Minseok Joo, Dogyun Park, Taehoon Lee, Kyujin Lee, Hyunwoo J. Kim

分类: cs.CV

发布日期: 2026-06-01

备注: 19 pages, 10 figures, 5 tables

💡 一句话要点

提出COVRAG，通过最大化覆盖率检索增强长视频生成的一致性

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱七：动作重定向 (Motion Retargeting)

关键词: 长视频生成 几何一致性 内存检索 3D先验 覆盖率最大化

📋 核心要点

长视频生成面临长期几何一致性挑战，现有方法在像素级可见性推理或计算成本上存在不足。
COVRAG利用预训练3D先验构建轻量级目标视图覆盖图，并通过最大化残余覆盖增益迭代检索帧。
实验表明，COVRAG在RealEstate10K和DL3DV10K数据集上，提升了长时程几何一致性并保持了低延迟。

📝 摘要（中文）

长时程自回归视频生成中，保持长期几何一致性仍然是一个挑战。内存增强生成模型通过检索历史帧来解决这个问题，但其有效性取决于两个关键设计选择：什么3D几何证据应该代表过去的观察，以及如何从这些证据中选择记忆帧。现有方法通常依赖于相机姿态或视场重叠，这些方法虽然轻量级，但过于粗糙，无法推理像素级的可见性，或者使用显式的3D重建，这提供了细粒度的证据，但长期维护成本很高。我们提出了Coverage-Maximizing Retrieval-Augmented Generation (COVRAG)，这是一个基于深度的内存检索框架，它使用预训练的3D先验来构建目标视图覆盖图，作为轻量级的3D内存证据。对于帧选择，COVRAG最大化残余覆盖增益，迭代地检索解释目标视图区域的帧，这些区域未被当前上下文或先前选择的记忆覆盖。为了提高长视频生成的可扩展性，我们引入了滑动窗口深度缓存，以实现高效的几何估计。在RealEstate10K和DL3DV10K上的实验表明，与基线相比，COVRAG在保持低延迟的同时，提高了长时程几何一致性。

🔬 方法详解

问题定义：长视频生成任务中，如何保证生成视频的长期几何一致性是一个关键问题。现有方法，如基于相机姿态或视场重叠的方法，无法进行像素级的可见性推理，而显式3D重建方法计算成本过高，难以维护长时程的一致性。这些痛点限制了长视频生成模型的实用性。

核心思路：COVRAG的核心思路是利用预训练的3D先验知识，构建轻量级的目标视图覆盖图，作为3D几何信息的表示。通过最大化残余覆盖增益，迭代地选择能够覆盖当前上下文和已选记忆帧未覆盖区域的帧，从而实现对场景的完整理解和一致性维护。这种方法在计算效率和几何推理能力之间取得了平衡。

技术框架：COVRAG框架主要包含以下几个模块：1) 深度估计模块：利用预训练的3D先验模型（如深度估计网络）从历史帧中估计深度信息。2) 目标视图覆盖图构建模块：将深度信息投影到目标视图，构建目标视图的覆盖图，表示哪些区域已经被覆盖。3) 帧选择模块：通过最大化残余覆盖增益，迭代地选择能够最大程度覆盖未覆盖区域的帧。4) 生成模块：利用选择的帧和当前上下文生成新的视频帧。为了提高可扩展性，还引入了滑动窗口深度缓存机制。

关键创新：COVRAG的关键创新在于：1) 使用目标视图覆盖图作为轻量级的3D几何表示，避免了昂贵的3D重建。2) 提出最大化残余覆盖增益的帧选择策略，能够有效地选择信息量最大的帧。3) 引入滑动窗口深度缓存，提高了长视频生成的可扩展性。与现有方法相比，COVRAG在几何一致性和计算效率之间取得了更好的平衡。

关键设计：1) 目标视图覆盖图的分辨率是一个关键参数，需要根据场景的复杂度和计算资源进行调整。2) 残余覆盖增益的计算方式，例如可以使用像素级别的覆盖率或者更复杂的度量方式。3) 滑动窗口深度缓存的大小需要根据视频的长度和计算资源进行调整，以保证深度信息的有效性和计算效率。损失函数方面，可以使用对抗损失、感知损失等来提高生成视频的质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，COVRAG在RealEstate10K和DL3DV10K数据集上，显著提高了长视频生成的几何一致性。与基线方法相比，COVRAG在保持低延迟的同时，能够生成更逼真、更稳定的视频内容。具体的性能数据（例如FID分数、几何误差等）在论文中有详细展示，证明了COVRAG的有效性。

🎯 应用场景

COVRAG具有广泛的应用前景，例如虚拟现实内容生成、游戏场景自动生成、电影特效制作等。该技术可以用于创建具有长期几何一致性的高质量视频内容，提升用户体验。此外，COVRAG还可以应用于机器人导航和场景理解等领域，帮助机器人更好地理解周围环境。

📄 摘要（原文）

Maintaining long-term geometric consistency remains challenging for long-horizon autoregressive video generation. Memory-augmented generative models address this by retrieving historical frames, but their effectiveness depends on two key design choices: what 3D-geometric evidence should represent past observations, and how memory frames should be selected from this evidence. Existing methods often rely on camera poses or field-of-view overlap, which are lightweight but too coarse to reason about pixel-wise visibility, or use explicit 3D reconstruction, which provides fine-grained evidence but is costly to maintain over long rollouts. We propose Coverage-Maximizing Retrieval-Augmented Generation (COVRAG), a depth-based memory retrieval framework that uses pretrained 3D priors to construct a target-view coverage map as lightweight 3D memory evidence. For frame selection, COVRAG maximizes residual coverage gain, iteratively retrieving frames that explain target-view regions not covered by the current context or previously selected memories. To improve scalability in long-video generation, we introduce sliding-window depth caching for efficient geometry estimation. Experiments on RealEstate10K and DL3DV10K show that COVRAG improves long-horizon geometric consistency while maintaining low latency compared to baselines.

Retrieve What's Missing: Coverage-Maximizing Retrieval for Consistent Long Video Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理