VideoVerse: How Far is Your T2V Generator from a World Model?

📄 arXiv: 2510.08398v2 📥 PDF

作者: Zeqing Wang, Xinyu Wei, Bairui Li, Zhen Guo, Jinrui Zhang, Hongyang Wei, Keze Wang, Lei Zhang

分类: cs.CV

发布日期: 2025-10-09 (更新: 2025-10-21)

备注: 24 Pages, 8 Figures, 11 Tables


💡 一句话要点

VideoVerse:构建更全面的文本到视频生成模型评估基准,衡量模型与世界模型的差距

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 文本到视频生成 世界模型 评估基准 时间因果关系 知识推理

📋 核心要点

  1. 现有T2V评估基准无法有效区分先进模型,尤其在时间因果关系和世界知识理解方面存在不足。
  2. VideoVerse通过构建包含复杂时间因果关系和世界知识的视频数据集,并设计相应的评估问题来解决上述问题。
  3. 通过对现有T2V模型在VideoVerse上的评估,揭示了当前模型在理解真实世界复杂动态方面的局限性。

📝 摘要(中文)

本文提出VideoVerse,一个综合性的基准测试,旨在评估文本到视频(T2V)生成模型理解复杂时间因果关系和现实世界知识的能力。现有的T2V评估基准在区分最先进模型方面显得不足,它们在逐帧美学质量和时间一致性等维度上区分度不高,并且对事件级别的时间因果关系(视频的关键特征和世界模型的重要组成部分)以及世界知识的系统评估不足。VideoVerse收集了涵盖自然景观、体育、室内场景、科幻、化学和物理实验等不同领域的代表性视频,提取其具有内在时间因果关系的事件级描述,并由独立标注者将其改写为文本到视频的提示。针对每个提示,从动态和静态属性的角度设计了一套二元评估问题,共包含十个精心定义的评估维度。VideoVerse包含300个精心策划的提示,涉及815个事件和793个二元评估问题。此外,还开发了一种与人类偏好对齐的基于问答的评估流程,使用现代视觉-语言模型。最后,对最先进的开源和闭源T2V模型在VideoVerse上进行了系统评估,深入分析了当前T2V生成器与世界模型的差距。

🔬 方法详解

问题定义:现有的文本到视频生成(T2V)模型的评估基准已经无法满足需求,主要体现在以下几个方面:一是无法区分最先进的T2V模型,因为它们在逐帧美学质量和时间一致性等方面的表现都比较好;二是缺乏对事件级别的时间因果关系的深入评估,而时间因果关系是视频区别于其他模态的关键特征,也是构建世界模型的重要组成部分;三是缺乏对世界知识的系统评估,而世界知识是构建世界模型必不可少的能力。

核心思路:VideoVerse的核心思路是构建一个更全面、更具挑战性的T2V评估基准,该基准能够更有效地评估模型理解复杂时间因果关系和现实世界知识的能力。通过收集包含丰富事件和时间因果关系的视频数据,并设计相应的评估问题,可以更准确地衡量模型与世界模型的差距。

技术框架:VideoVerse的整体框架包括以下几个主要步骤:1. 数据收集:收集涵盖不同领域的代表性视频,例如自然景观、体育、室内场景、科幻、化学和物理实验等。2. 事件提取:提取视频中的事件级描述,并确保这些描述包含内在的时间因果关系。3. 提示生成:由独立标注者将事件级描述改写为文本到视频的提示。4. 问题设计:针对每个提示,从动态和静态属性的角度设计一套二元评估问题,共包含十个精心定义的评估维度。5. 评估流程:开发一种与人类偏好对齐的基于问答的评估流程,使用现代视觉-语言模型进行评估。

关键创新:VideoVerse的关键创新在于其对时间因果关系和世界知识的关注,以及其系统化的评估方法。与现有的评估基准相比,VideoVerse更注重评估模型对视频中事件之间因果关系的理解,以及模型对现实世界知识的掌握程度。此外,VideoVerse还采用了一种基于问答的评估流程,该流程能够更准确地衡量模型的性能。

关键设计:VideoVerse的关键设计包括:1. 视频数据的多样性:涵盖了不同领域的视频,以确保评估的全面性。2. 事件级描述的准确性:提取的事件级描述必须准确地反映视频中的事件和时间因果关系。3. 评估问题的合理性:设计的评估问题必须能够有效地评估模型对时间因果关系和世界知识的理解。4. 评估流程的可靠性:基于问答的评估流程必须能够准确地衡量模型的性能,并与人类偏好对齐。

📊 实验亮点

VideoVerse对当前最先进的开源和闭源T2V模型进行了系统评估,揭示了这些模型在理解复杂时间因果关系和现实世界知识方面的局限性。实验结果表明,即使是最先进的T2V模型,在VideoVerse上的表现也远未达到人类水平,这表明当前T2V生成器与世界模型之间仍然存在很大的差距。

🎯 应用场景

VideoVerse的潜在应用领域包括:提升文本到视频生成模型的性能,构建更逼真的虚拟现实和增强现实环境,开发更智能的视频编辑和分析工具,以及推动通用人工智能的发展。通过更准确地评估T2V模型与世界模型的差距,可以指导研究人员开发更强大的模型,从而实现更广泛的应用。

📄 摘要(原文)

The recent rapid advancement of Text-to-Video (T2V) generation technologies, which are critical to build ``world models'', makes the existing benchmarks increasingly insufficient to evaluate state-of-the-art T2V models. First, current evaluation dimensions, such as per-frame aesthetic quality and temporal consistency, are no longer able to differentiate state-of-the-art T2V models. Second, event-level temporal causality, which not only distinguishes video from other modalities but also constitutes a crucial component of world models, is severely underexplored in existing benchmarks. Third, existing benchmarks lack a systematic assessment of world knowledge, which are essential capabilities for building world models. To address these issues, we introduce VideoVerse, a comprehensive benchmark that focuses on evaluating whether a T2V model could understand complex temporal causality and world knowledge in the real world. We collect representative videos across diverse domains (e.g., natural landscapes, sports, indoor scenes, science fiction, chemical and physical experiments) and extract their event-level descriptions with inherent temporal causality, which are then rewritten into text-to-video prompts by independent annotators. For each prompt, we design a suite of binary evaluation questions from the perspective of dynamic and static properties, with a total of ten carefully defined evaluation dimensions. In total, our VideoVerse comprises 300 carefully curated prompts, involving 815 events and 793 binary evaluation questions. Consequently, a human preference aligned QA-based evaluation pipeline is developed by using modern vision-language models. Finally, we perform a systematic evaluation of state-of-the-art open-source and closed-source T2V models on VideoVerse, providing in-depth analysis on how far the current T2V generators are from world models.