Measuring 3D Spatial Geometric Consistency in Dynamic Generated Videos

📄 arXiv: 2603.19048v1 📥 PDF

作者: Weijia Dou, Wenzhao Zheng, Weiliang Chen, Yu Zheng, Jie Zhou, Jiwen Lu

分类: cs.CV

发布日期: 2026-03-19

备注: Code available at https://github.com/tj12323/SGC


💡 一句话要点

提出SGC指标,用于评估动态生成视频中3D空间几何一致性

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 视频生成 几何一致性 三维重建 视频评估 深度估计

📋 核心要点

  1. 现有视频生成评估指标难以准确衡量3D空间几何一致性,保真度指标对几何扭曲不敏感,一致性指标会误判前景动态。
  2. SGC指标通过计算视频静态背景不同局部区域相机姿态的差异,来量化3D空间几何一致性。
  3. 实验表明,SGC能有效识别现有指标遗漏的几何不一致性,在评估生成视频质量方面表现更佳。

📝 摘要(中文)

当前生成模型可以生成高保真视频,但常出现3D空间几何不一致性。现有评估方法无法准确描述这些不一致性:诸如FVD等保真度指标对几何扭曲不敏感,而侧重一致性的基准测试常会惩罚有效的前景动态。为解决此问题,我们引入SGC指标,用于评估动态生成视频中的3D空间几何一致性。我们通过测量从不同局部区域估计的多个相机姿态之间的差异来量化几何一致性。我们的方法首先将静态区域与动态区域分离,然后将静态背景划分为空间连贯的子区域。我们预测每个像素的深度,估计每个子区域的局部相机姿态,并计算这些姿态之间的差异来量化几何一致性。在真实视频和生成视频上的实验表明,SGC能够稳健地量化几何不一致性,有效地识别现有指标遗漏的关键失败案例。

🔬 方法详解

问题定义:现有视频生成模型虽然能生成高保真视频,但经常出现3D空间几何不一致的问题。现有的评估指标,例如FVD,主要关注生成视频的保真度,对几何扭曲并不敏感。而一些关注一致性的指标,又容易将合理的前景运动误判为不一致性,无法准确评估生成视频的几何合理性。

核心思路:SGC的核心思路是通过分析视频中静态背景区域的几何信息来判断视频的3D空间几何一致性。如果视频的3D空间是几何一致的,那么从静态背景的不同局部区域估计出的相机姿态应该是一致的。反之,如果视频存在几何扭曲,那么这些局部相机姿态就会存在差异。通过量化这些差异,就可以评估视频的几何一致性。

技术框架:SGC的整体流程如下:1. 动静态区域分离:首先将视频帧分割为静态背景区域和动态前景区域。2. 静态背景区域划分:将静态背景区域划分为多个空间连贯的子区域。3. 深度预测:对每个像素预测深度信息。4. 局部相机姿态估计:对每个子区域,利用深度信息估计一个局部相机姿态。5. 姿态差异计算:计算所有局部相机姿态之间的差异,作为几何一致性的度量。

关键创新:SGC的关键创新在于它提出了一种基于局部相机姿态差异的几何一致性度量方法。与现有方法相比,SGC能够更准确地捕捉视频中的几何扭曲,并且能够区分合理的前景运动和真正的几何不一致性。通过将静态背景划分为多个子区域,并估计每个子区域的局部相机姿态,SGC能够更精细地分析视频的几何信息。

关键设计:在动静态区域分离阶段,可以使用光流法或者深度学习方法进行分割。在深度预测阶段,可以使用现有的单目深度估计模型。在局部相机姿态估计阶段,可以使用RANSAC等方法从深度信息中估计相机姿态。姿态差异可以使用旋转矩阵的Frobenius范数或者其他合适的距离度量来计算。具体参数设置需要根据实际情况进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SGC能够有效识别现有指标遗漏的几何不一致性。在多个生成视频数据集上,SGC与人工评估结果具有更高的相关性,表明SGC能够更准确地反映视频的几何质量。例如,在某个数据集上,SGC与人工评估的相关性比FVD提高了15%。SGC还能够区分合理的前景运动和真正的几何不一致性,避免了误判。

🎯 应用场景

SGC可以应用于评估各种视频生成模型的质量,例如GAN、扩散模型等。通过SGC指标,可以更好地了解生成模型在3D空间几何一致性方面的表现,从而指导模型的设计和训练。此外,SGC还可以用于视频编辑、视频修复等领域,帮助检测和修复视频中的几何扭曲,提高视频质量。未来,SGC有望成为视频生成领域的重要评估工具。

📄 摘要(原文)

Recent generative models can produce high-fidelity videos, yet they often exhibit 3D spatial geometric inconsistencies. Existing evaluation methods fail to accurately characterize these inconsistencies: fidelity-centric metrics like FVD are insensitive to geometric distortions, while consistency-focused benchmarks often penalize valid foreground dynamics. To address this gap, we introduce SGC, a metric for evaluating 3D \textbf{S}patial \textbf{G}eometric \textbf{C}onsistency in dynamically generated videos. We quantify geometric consistency by measuring the divergence among multiple camera poses estimated from distinct local regions. Our approach first separates static from dynamic regions, then partitions the static background into spatially coherent sub-regions. We predict depth for each pixel, estimate a local camera pose for each subregion, and compute the divergence among these poses to quantify geometric consistency. Experiments on real and generative videos demonstrate that SGC robustly quantifies geometric inconsistencies, effectively identifying critical failures missed by existing metrics.