World Consistency Score: A Unified Metric for Video Generation Quality

📄 arXiv: 2508.00144v1 📥 PDF

作者: Akshat Rakheja, Aarsh Ashdhir, Aryan Bhattacharjee, Vanshika Sharma

分类: cs.CV

发布日期: 2025-07-31

备注: 27 pages, 1 figure


💡 一句话要点

提出世界一致性评分(WCS),用于统一评估生成视频模型的世界一致性。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视频生成 评估指标 世界一致性 对象持久性 因果关系 视频质量评估 生成模型

📋 核心要点

  1. 现有视频生成评估指标主要关注视觉质量或文本对齐,忽略了视频内部世界的一致性,导致评估结果与人类感知不符。
  2. WCS通过整合对象持久性、关系稳定性、因果一致性和闪烁惩罚四个子指标,全面评估生成视频在时间维度和物理规则上的合理性。
  3. 实验结果表明,WCS与人类评估具有高度相关性,并且在多个基准测试中优于现有的视频生成评估指标,例如FVD和CLIPScore。

📝 摘要(中文)

本文提出了一种新的统一评估指标——世界一致性评分(WCS),用于评估生成视频模型中内部世界一致性。WCS集成了四个可解释的子组件:对象持久性、关系稳定性、因果一致性和闪烁惩罚,分别衡量视频中时间及物理连贯性的不同方面。这些子指标通过学习到的加权公式组合成一个单一的一致性评分,该评分与人类判断相符。本文详细阐述了WCS在现有视频评估指标中的动机,形式化了每个子指标及其如何使用开源工具(跟踪器、动作识别器、CLIP嵌入、光流)进行计算,并描述了如何使用人类偏好数据训练WCS组合的权重。此外,本文还概述了一个实验验证蓝图:使用VBench-2.0、EvalCrafter和LOVE等基准测试WCS与人类评估的相关性,执行敏感性分析,并将WCS与已建立的指标(FVD、CLIPScore、VBench、FVMD)进行比较。所提出的WCS提供了一个全面且可解释的框架,用于评估视频生成模型在维持随时间推移的连贯“世界”的能力,解决了先前仅关注视觉保真度或提示对齐的指标所留下的差距。

🔬 方法详解

问题定义:现有视频生成模型的评估指标,如FVD和CLIPScore,主要关注生成视频的视觉质量和与文本提示的对齐程度,而忽略了视频内部世界的一致性,例如物体是否会突然消失、物体之间的关系是否稳定、事件的因果关系是否合理等。这些指标无法准确反映生成视频的真实感和合理性,导致评估结果与人类感知存在偏差。

核心思路:WCS的核心思路是将视频世界一致性分解为四个可解释的子组件:对象持久性、关系稳定性、因果一致性和闪烁惩罚。通过分别评估这些子组件,可以更全面地了解生成视频在时间维度和物理规则上的合理性。然后,通过学习到的权重将这些子组件组合成一个单一的一致性评分,该评分与人类判断对齐。

技术框架:WCS的整体框架包括以下几个步骤:1) 使用对象跟踪器、动作识别器、CLIP嵌入和光流等开源工具提取视频的特征。2) 基于提取的特征,计算对象持久性、关系稳定性、因果一致性和闪烁惩罚四个子指标。3) 使用人类偏好数据训练一个加权公式,将四个子指标组合成一个单一的WCS评分。4) 使用VBench-2.0、EvalCrafter和LOVE等基准测试评估WCS与人类评估的相关性,并与其他指标进行比较。

关键创新:WCS的关键创新在于:1) 提出了一个统一的框架,用于评估生成视频的世界一致性。2) 将世界一致性分解为四个可解释的子组件,使得评估结果更具可解释性。3) 使用学习到的权重将子组件组合成一个单一的评分,使得评分与人类判断更一致。4) 使用开源工具计算子指标,使得WCS更易于使用和推广。

关键设计:对象持久性通过跟踪视频中的对象,并计算对象在视频中出现的比例来衡量。关系稳定性通过计算视频中对象之间关系的改变程度来衡量。因果一致性通过使用动作识别器识别视频中的动作,并判断动作之间的因果关系是否合理来衡量。闪烁惩罚通过计算视频中像素值的变化程度来衡量。WCS使用一个线性模型将四个子指标组合成一个单一的评分,模型的权重通过最小化WCS评分与人类偏好之间的差异来学习。

📊 实验亮点

实验结果表明,WCS与人类评估具有高度相关性,在VBench-2.0、EvalCrafter和LOVE等基准测试中,WCS与人类评估的相关性优于FVD、CLIPScore、VBench和FVMD等现有指标。例如,在VBench-2.0上,WCS与人类评估的平均相关性为0.75,而FVD的相关性为0.62。

🎯 应用场景

WCS可应用于评估各种视频生成模型的性能,例如文本到视频模型、视频预测模型和视频插帧模型。通过使用WCS,可以更准确地了解这些模型生成视频的真实感和合理性,从而促进视频生成技术的发展。此外,WCS还可以用于视频编辑、视频监控等领域,例如,可以用于评估视频编辑操作是否破坏了视频的世界一致性,或者用于检测视频监控画面中是否存在异常事件。

📄 摘要(原文)

We introduce World Consistency Score (WCS), a novel unified evaluation metric for generative video models that emphasizes internal world consistency of the generated videos. WCS integrates four interpretable sub-components - object permanence, relation stability, causal compliance, and flicker penalty - each measuring a distinct aspect of temporal and physical coherence in a video. These submetrics are combined via a learned weighted formula to produce a single consistency score that aligns with human judgments. We detail the motivation for WCS in the context of existing video evaluation metrics, formalize each submetric and how it is computed with open-source tools (trackers, action recognizers, CLIP embeddings, optical flow), and describe how the weights of the WCS combination are trained using human preference data. We also outline an experimental validation blueprint: using benchmarks like VBench-2.0, EvalCrafter, and LOVE to test WCS's correlation with human evaluations, performing sensitivity analyses, and comparing WCS against established metrics (FVD, CLIPScore, VBench, FVMD). The proposed WCS offers a comprehensive and interpretable framework for evaluating video generation models on their ability to maintain a coherent "world" over time, addressing gaps left by prior metrics focused only on visual fidelity or prompt alignment.