VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation

作者: Wentao Ma, Weiming Ren, Yiming Jia, Zhuofeng Li, Ping Nie, Ge Zhang, Wenhu Chen

分类: cs.CV

发布日期: 2025-05-20

备注: Dataset: https://huggingface.co/datasets/TIGER-Lab/VideoEval-Pro, Project Webpage: https://tiger-ai-lab.github.io/VideoEval-Pro

💡 一句话要点

提出VideoEval-Pro，用于更鲁棒和真实的长期视频理解评估

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 视频评估 多模态模型 开放式问答 基准测试

📋 核心要点

现有长视频理解基准依赖多选题，易受先验知识影响，无法真实反映模型理解能力。
VideoEval-Pro采用开放式简答题，要求模型真正理解整个视频内容，进行感知和推理。
实验表明，现有模型在VideoEval-Pro上性能显著下降，且该基准更能受益于增加输入帧数。

📝 摘要（中文）

大型多模态模型（LMMs）已成为长期视频理解（LVU）的强大工具，促使人们开发标准化的LVU基准来评估它们的性能。然而，我们发现现有LVU基准存在一些问题。首先，大多数基准严重依赖多项选择题（MCQs），其评估结果因猜测正确答案的可能性而被夸大；其次，这些基准中的很大一部分问题具有很强的先验性，使得模型无需阅读输入视频即可直接回答。例如，Gemini-1.5-Pro在Video-MME上仅给定长视频中的随机帧即可达到超过50%的准确率。我们还观察到，增加帧数并不一定能提高现有基准的性能，这与直觉相悖。因此，当前LVU基准的有效性和鲁棒性受到损害，阻碍了对LMMs长期视频理解能力的真实评估。为了解决这个问题，我们提出了VideoEval-Pro，这是一个真实的LVU基准，包含开放式的简答题，真正需要理解整个视频。VideoEval-Pro通过感知和推理任务评估片段级别和完整视频的理解。通过评估21个专有和开源的视频LMMs，我们得出以下结论：（1）与MCQs相比，视频LMMs在开放式问题上的性能大幅下降（>25%）；（2）令人惊讶的是，在VideoEval-Pro上，较高的MCQ分数并不一定带来较高的开放式问题分数；（3）与其他MCQ基准相比，VideoEval-Pro更能从增加输入帧数中获益。我们的结果表明，VideoEval-Pro提供了更真实和可靠的长期视频理解度量，为该领域的进展提供了更清晰的视角。

🔬 方法详解

问题定义：现有长视频理解基准主要依赖多项选择题，模型可以通过猜测或利用问题中的先验知识来获得高分，而无需真正理解视频内容。这导致评估结果虚高，无法准确反映模型的真实理解能力。此外，增加输入帧数在现有基准上提升不明显，表明这些基准无法有效利用长视频信息。

核心思路：为了解决现有基准的不足，VideoEval-Pro采用开放式简答题，要求模型根据视频内容生成简短的答案。这种形式避免了猜测和先验知识的影响，迫使模型真正理解视频内容才能正确回答问题。同时，VideoEval-Pro设计了需要感知和推理的任务，以更全面地评估模型的理解能力。

技术框架：VideoEval-Pro包含两类任务：片段级别理解和完整视频理解。这两类任务都包含感知和推理两个方面。整体流程是：给定一个长视频，模型首先需要处理视频信息，然后根据问题生成答案。评估指标主要基于答案的准确性和相关性。

关键创新：VideoEval-Pro的关键创新在于使用开放式简答题作为评估形式，这与现有基准主要采用的多项选择题形成鲜明对比。开放式简答题能够更真实地反映模型的理解能力，避免了猜测和先验知识的影响。此外，VideoEval-Pro更加注重对模型感知和推理能力的评估。

关键设计：VideoEval-Pro在问题设计上，力求避免先验知识的泄露，确保问题必须基于视频内容才能回答。同时，问题涵盖了视频中的多个方面，包括人物、事件、场景等，以全面评估模型的理解能力。评估指标方面，采用了多种指标来衡量答案的准确性和相关性，例如BLEU、ROUGE等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有视频LMMs在VideoEval-Pro的开放式问题上性能下降超过25%，表明现有模型在真实理解方面存在不足。同时，在VideoEval-Pro上，增加输入帧数能够带来更显著的性能提升，验证了该基准能够有效利用长视频信息。此外，较高的多选题分数并不一定意味着在VideoEval-Pro上也能获得较高的开放式问题分数，进一步说明了现有基准的局限性。

🎯 应用场景

VideoEval-Pro可用于评估和比较不同长视频理解模型的性能，推动该领域的发展。其更真实的评估方式有助于研究人员开发更强大的模型，应用于视频搜索、智能监控、视频摘要、自动驾驶等领域，提升相关应用的智能化水平。

📄 摘要（原文）

Large multimodal models (LMMs) have recently emerged as a powerful tool for long video understanding (LVU), prompting the development of standardized LVU benchmarks to evaluate their performance. However, our investigation reveals a rather sober lesson for existing LVU benchmarks. First, most existing benchmarks rely heavily on multiple-choice questions (MCQs), whose evaluation results are inflated due to the possibility of guessing the correct answer; Second, a significant portion of questions in these benchmarks have strong priors to allow models to answer directly without even reading the input video. For example, Gemini-1.5-Pro can achieve over 50\% accuracy given a random frame from a long video on Video-MME. We also observe that increasing the number of frames does not necessarily lead to improvement on existing benchmarks, which is counterintuitive. As a result, the validity and robustness of current LVU benchmarks are undermined, impeding a faithful assessment of LMMs' long-video understanding capability. To tackle this problem, we propose VideoEval-Pro, a realistic LVU benchmark containing questions with open-ended short-answer, which truly require understanding the entire video. VideoEval-Pro assesses both segment-level and full-video understanding through perception and reasoning tasks. By evaluating 21 proprietary and open-source video LMMs, we conclude the following findings: (1) video LMMs show drastic performance ($>$25\%) drops on open-ended questions compared with MCQs; (2) surprisingly, higher MCQ scores do not lead to higher open-ended scores on VideoEval-Pro; (3) compared to other MCQ benchmarks, VideoEval-Pro benefits more from increasing the number of input frames. Our results show that VideoEval-Pro offers a more realistic and reliable measure of long video understanding, providing a clearer view of progress in this domain.

VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理