VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation

📄 arXiv: 2505.14640v1 📥 PDF

作者: Wentao Ma, Weiming Ren, Yiming Jia, Zhuofeng Li, Ping Nie, Ge Zhang, Wenhu Chen

分类: cs.CV

发布日期: 2025-05-20

备注: Dataset: https://huggingface.co/datasets/TIGER-Lab/VideoEval-Pro, Project Webpage: https://tiger-ai-lab.github.io/VideoEval-Pro


💡 一句话要点

提出VideoEval-Pro,用于更鲁棒和真实的长期视频理解评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 视频评估 多模态模型 开放式问答 基准测试

📋 核心要点

  1. 现有长视频理解基准依赖多选题,易受先验知识影响,无法真实反映模型理解能力。
  2. VideoEval-Pro采用开放式简答题,要求模型真正理解整个视频内容,进行感知和推理。
  3. 实验表明,现有模型在VideoEval-Pro上性能显著下降,且该基准更能受益于增加输入帧数。

📝 摘要(中文)

大型多模态模型(LMMs)已成为长期视频理解(LVU)的强大工具,促使人们开发标准化的LVU基准来评估它们的性能。然而,我们发现现有LVU基准存在一些问题。首先,大多数基准严重依赖多项选择题(MCQs),其评估结果因猜测正确答案的可能性而被夸大;其次,这些基准中的很大一部分问题具有很强的先验性,使得模型无需阅读输入视频即可直接回答。例如,Gemini-1.5-Pro在Video-MME上仅给定长视频中的随机帧即可达到超过50%的准确率。我们还观察到,增加帧数并不一定能提高现有基准的性能,这与直觉相悖。因此,当前LVU基准的有效性和鲁棒性受到损害,阻碍了对LMMs长期视频理解能力的真实评估。为了解决这个问题,我们提出了VideoEval-Pro,这是一个真实的LVU基准,包含开放式的简答题,真正需要理解整个视频。VideoEval-Pro通过感知和推理任务评估片段级别和完整视频的理解。通过评估21个专有和开源的视频LMMs,我们得出以下结论:(1)与MCQs相比,视频LMMs在开放式问题上的性能大幅下降(>25%);(2)令人惊讶的是,在VideoEval-Pro上,较高的MCQ分数并不一定带来较高的开放式问题分数;(3)与其他MCQ基准相比,VideoEval-Pro更能从增加输入帧数中获益。我们的结果表明,VideoEval-Pro提供了更真实和可靠的长期视频理解度量,为该领域的进展提供了更清晰的视角。

🔬 方法详解

问题定义:现有长视频理解基准主要依赖多项选择题,模型可以通过猜测或利用问题中的先验知识来获得高分,而无需真正理解视频内容。这导致评估结果虚高,无法准确反映模型的真实理解能力。此外,增加输入帧数在现有基准上提升不明显,表明这些基准无法有效利用长视频信息。

核心思路:为了解决现有基准的不足,VideoEval-Pro采用开放式简答题,要求模型根据视频内容生成简短的答案。这种形式避免了猜测和先验知识的影响,迫使模型真正理解视频内容才能正确回答问题。同时,VideoEval-Pro设计了需要感知和推理的任务,以更全面地评估模型的理解能力。

技术框架:VideoEval-Pro包含两类任务:片段级别理解和完整视频理解。这两类任务都包含感知和推理两个方面。整体流程是:给定一个长视频,模型首先需要处理视频信息,然后根据问题生成答案。评估指标主要基于答案的准确性和相关性。

关键创新:VideoEval-Pro的关键创新在于使用开放式简答题作为评估形式,这与现有基准主要采用的多项选择题形成鲜明对比。开放式简答题能够更真实地反映模型的理解能力,避免了猜测和先验知识的影响。此外,VideoEval-Pro更加注重对模型感知和推理能力的评估。

关键设计:VideoEval-Pro在问题设计上,力求避免先验知识的泄露,确保问题必须基于视频内容才能回答。同时,问题涵盖了视频中的多个方面,包括人物、事件、场景等,以全面评估模型的理解能力。评估指标方面,采用了多种指标来衡量答案的准确性和相关性,例如BLEU、ROUGE等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有视频LMMs在VideoEval-Pro的开放式问题上性能下降超过25%,表明现有模型在真实理解方面存在不足。同时,在VideoEval-Pro上,增加输入帧数能够带来更显著的性能提升,验证了该基准能够有效利用长视频信息。此外,较高的多选题分数并不一定意味着在VideoEval-Pro上也能获得较高的开放式问题分数,进一步说明了现有基准的局限性。

🎯 应用场景

VideoEval-Pro可用于评估和比较不同长视频理解模型的性能,推动该领域的发展。其更真实的评估方式有助于研究人员开发更强大的模型,应用于视频搜索、智能监控、视频摘要、自动驾驶等领域,提升相关应用的智能化水平。

📄 摘要(原文)

Large multimodal models (LMMs) have recently emerged as a powerful tool for long video understanding (LVU), prompting the development of standardized LVU benchmarks to evaluate their performance. However, our investigation reveals a rather sober lesson for existing LVU benchmarks. First, most existing benchmarks rely heavily on multiple-choice questions (MCQs), whose evaluation results are inflated due to the possibility of guessing the correct answer; Second, a significant portion of questions in these benchmarks have strong priors to allow models to answer directly without even reading the input video. For example, Gemini-1.5-Pro can achieve over 50\% accuracy given a random frame from a long video on Video-MME. We also observe that increasing the number of frames does not necessarily lead to improvement on existing benchmarks, which is counterintuitive. As a result, the validity and robustness of current LVU benchmarks are undermined, impeding a faithful assessment of LMMs' long-video understanding capability. To tackle this problem, we propose VideoEval-Pro, a realistic LVU benchmark containing questions with open-ended short-answer, which truly require understanding the entire video. VideoEval-Pro assesses both segment-level and full-video understanding through perception and reasoning tasks. By evaluating 21 proprietary and open-source video LMMs, we conclude the following findings: (1) video LMMs show drastic performance ($>$25\%) drops on open-ended questions compared with MCQs; (2) surprisingly, higher MCQ scores do not lead to higher open-ended scores on VideoEval-Pro; (3) compared to other MCQ benchmarks, VideoEval-Pro benefits more from increasing the number of input frames. Our results show that VideoEval-Pro offers a more realistic and reliable measure of long video understanding, providing a clearer view of progress in this domain.