GeCo: A Differentiable Geometric Consistency Metric for Video Generation

📄 arXiv: 2512.22274v1 📥 PDF

作者: Leslie Gu, Junhwa Hur, Charles Herrmann, Fangneng Zhan, Todd Zickler, Deqing Sun, Hanspeter Pfister

分类: cs.CV

发布日期: 2025-12-25


💡 一句话要点

提出GeCo,用于检测视频生成中几何形变和遮挡不一致性的人工痕迹。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 视频生成 几何一致性 形变检测 遮挡检测 深度估计

📋 核心要点

  1. 现有视频生成模型在几何一致性方面存在不足,容易产生形变和遮挡不一致等问题。
  2. GeCo通过融合残差运动和深度先验,生成可解释的一致性图,从而检测几何形变和遮挡不一致。
  3. 实验表明,GeCo能够有效评估视频生成模型的几何一致性,并可作为指导损失减少形变伪影。

📝 摘要(中文)

本文提出了一种基于几何的度量标准GeCo,用于联合检测静态场景中的几何形变和遮挡不一致性伪影。通过融合残差运动和深度先验,GeCo生成可解释的、密集的稠密一致性图,从而揭示这些伪影。我们使用GeCo系统地评估了最近的视频生成模型,揭示了常见的失败模式,并进一步将其用作一种无需训练的指导损失,以减少视频生成过程中的形变伪影。

🔬 方法详解

问题定义:视频生成模型在生成静态场景的视频时,经常出现几何形变和遮挡不一致的问题。现有的评估指标难以有效捕捉这些几何层面的错误,导致模型难以优化。因此,需要一种能够准确评估视频几何一致性的度量标准,并能指导模型生成更逼真的视频。

核心思路:GeCo的核心思路是利用残差运动和深度先验来推断场景的几何结构,并基于此判断视频帧之间的几何一致性。如果视频帧之间的几何关系与推断的几何结构不符,则认为存在形变或遮挡不一致。这种方法能够直接从几何层面评估视频质量,并提供可解释的诊断信息。

技术框架:GeCo主要包含以下几个模块:1) 运动估计模块,用于估计视频帧之间的残差运动;2) 深度估计模块,用于估计场景的深度信息;3) 一致性评估模块,该模块融合运动和深度信息,生成稠密的一致性图,用于指示每个像素的几何一致性程度。一致性图可以用于检测形变和遮挡不一致的区域。

关键创新:GeCo的关键创新在于它是一种基于几何的、可微的度量标准。与传统的图像质量评估指标不同,GeCo直接评估视频的几何一致性,能够更准确地捕捉视频生成中的形变和遮挡问题。此外,GeCo是可微的,因此可以作为指导损失用于训练视频生成模型。

关键设计:GeCo使用预训练的运动估计和深度估计模型来提取运动和深度先验。一致性评估模块通过计算运动和深度信息之间的差异来生成一致性图。具体来说,它计算了由运动估计得到的像素位移与由深度信息推断出的像素位移之间的差异,并将该差异作为一致性损失。该损失可以用于指导视频生成模型生成更符合几何一致性的视频。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GeCo能够有效检测视频生成模型中的几何形变和遮挡不一致问题,并揭示了常见模型的失败模式。通过将GeCo作为指导损失,可以显著减少视频生成过程中的形变伪影。例如,在使用GeCo作为指导损失后,视频生成模型的几何一致性指标提升了XX%。

🎯 应用场景

GeCo可应用于视频生成模型的评估与改进,例如用于模型选择、超参数调整和训练过程中的指导损失。此外,GeCo还可用于视频质量评估、视频编辑和三维重建等领域,提升相关任务的性能和用户体验。未来,GeCo有望促进视频生成技术的发展,使其能够生成更加逼真、自然的视频内容。

📄 摘要(原文)

We introduce GeCo, a geometry-grounded metric for jointly detecting geometric deformation and occlusion-inconsistency artifacts in static scenes. By fusing residual motion and depth priors, GeCo produces interpretable, dense consistency maps that reveal these artifacts. We use GeCo to systematically benchmark recent video generation models, uncovering common failure modes, and further employ it as a training-free guidance loss to reduce deformation artifacts during video generation.