VidNum-1.4K: A Comprehensive Benchmark for Video-based Numerical Reasoning

📄 arXiv: 2604.03701 📥 PDF

作者: Shaoyang Cui, Lingbei Meng

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出VidNum-1.4K,用于评估视频数值推理能力的综合基准测试集。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频数值推理 视觉-语言模型 VideoQA 基准测试集 多模态学习

📋 核心要点

  1. 现有视频数值推理基准测试集领域狭窄,无法有效评估模型在复杂场景下的多步骤数值逻辑能力。
  2. VidNum-1.4K通过构建包含1379个视频-问题对的三级层次结构,全面评估模型在不同环境下的数值推理能力。
  3. 实验表明,现有VLM在VidNum-1.4K上表现不佳,Gemini-3.1-pro准确率仅为60%,开源模型更低,表明模型缺乏稳定的内部世界模型。

📝 摘要(中文)

基于视频的数值推理为测试视觉-语言模型(VLM)是否真正“理解”真实世界动态提供了一个重要平台,因为准确的数值推导需要对时间事件、物体恒存性和组合逻辑的深刻理解,而不仅仅是表面模式匹配。然而,现有的基准测试通常局限于狭窄的领域,例如重复的运动动作,或者将简单的计数仅仅视为一个肤浅的回归任务,而不能评估真实世界多媒体内容内在复杂性中的多步骤数值逻辑。我们引入了VidNum-1.4K,这是一个综合的VideoQA基准测试,包含1379个严格的人工标注的视频-问题对,旨在评估跨高度多样化环境(包括对象、动作和事件量化)的真实数值推理。VidNum-1.4K独特地构建成一个三级层次结构,从直接的视觉感知演变为基于视频的组合数值推理,要求模型执行基于时间证据的算术运算、比较和逻辑推导。我们对各种最先进的VLM的评估揭示了一个惊人的推理差距:Gemini-3.1-pro勉强达到60%的准确率阈值,而具有代表性的开源系列则在25%--45%的范围内苦苦挣扎。这些发现表明,当前的VLM仍然缺乏一个稳定的“内部世界模型”,这使得VidNum-1.4K成为下一代数值视频智能的一个苛刻的诊断测试平台。

🔬 方法详解

问题定义:论文旨在解决现有视频数值推理基准测试集不足的问题。现有数据集通常集中于特定领域或简化为简单的计数任务,无法有效评估模型在复杂、真实的视频场景中进行多步骤数值推理的能力。这限制了对VLM真正理解视频内容和进行逻辑推理能力的评估。

核心思路:论文的核心思路是构建一个更全面、更具挑战性的视频数值推理基准测试集VidNum-1.4K。该数据集包含多样化的视频内容和问题类型,涵盖对象、动作和事件的量化,并设计了三级层次结构,从简单的视觉感知逐步过渡到复杂的组合数值推理。这种设计旨在迫使模型真正理解视频内容,并进行逻辑推理,而不仅仅是进行表面模式匹配。

技术框架:VidNum-1.4K数据集的构建流程主要包括以下几个阶段:1) 视频收集:收集来自不同来源的视频,确保视频内容的多样性。2) 问题设计:设计与视频内容相关的数值推理问题,涵盖算术运算、比较和逻辑推导等。3) 人工标注:由人工对视频和问题进行标注,确保标注的准确性和一致性。4) 数据集划分:将数据集划分为训练集、验证集和测试集,用于模型训练和评估。

关键创新:VidNum-1.4K的关键创新在于其数据集的全面性和层次性。与现有数据集相比,VidNum-1.4K包含更广泛的视频内容和更复杂的问题类型,能够更全面地评估VLM的数值推理能力。此外,三级层次结构的设计使得数据集能够逐步引导模型从简单的视觉感知到复杂的组合数值推理,从而更好地诊断模型的推理能力。

关键设计:VidNum-1.4K数据集包含1379个视频-问题对,分为三个层级:Level 1侧重于直接的视觉感知,Level 2涉及简单的数值计算,Level 3则需要进行复杂的组合数值推理。数据集涵盖了对象、动作和事件的量化,问题类型包括算术运算、比较和逻辑推导。数据集的标注由人工完成,并经过多轮审核,以确保标注的准确性和一致性。论文没有提及特定的损失函数或网络结构,因为该工作主要集中在数据集的构建上,而非模型的设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有VLM在VidNum-1.4K数据集上表现不佳,Gemini-3.1-pro的准确率仅为60%,而开源模型的准确率在25%-45%之间。这表明现有VLM在处理复杂的视频数值推理任务时仍然存在很大的差距,需要进一步的研究和改进。VidNum-1.4K可以作为评估和诊断VLM数值推理能力的有效工具。

🎯 应用场景

VidNum-1.4K可用于训练和评估各种视觉-语言模型在视频数值推理方面的能力。该数据集可以推动VLM在智能监控、自动驾驶、机器人导航等领域的应用,例如,帮助机器人理解周围环境中的物体数量和变化,从而做出更合理的决策。此外,该数据集还可以促进对VLM内部世界模型的理解和改进。

📄 摘要(原文)

Video-based numerical reasoning provides a premier arena for testing whether Vision-Language Models (VLMs) truly "understand" real-world dynamics, as accurate numerical deduction necessitates a profound grasp of temporal events, object permanence, and compositional logic beyond superficial pattern matching. However, existing benchmarks are often confined to narrow domains, such as repetitive athletic motions, or treat simple counting merely as a superficial regression task, failing to assess multi-step numerical logic within the inherent complexity of real-world multimedia content. We introduce VidNum-1.4K, a comprehensive VideoQA benchmark comprising 1,379 strictly human-annotated video-question pairs designed to evaluate genuine numerical reasoning across highly diverse environments, encompassing object, action, and event quantification. The VidNum-1.4K is uniquely structured into a three-level hierarchy that evolves from direct visual perception to video-based compositional numerical reasoning, requiring models to perform arithmetic operations, comparisons, and logical deductions grounded in temporal evidence. Our evaluations across a diverse suite of state-of-the-art VLMs reveal a striking reasoning gap: while the Gemini-3.1-pro barely reaches a 60% accuracy threshold, representative open-source families struggle heavily in the 25%--45% range. These findings demonstrate that current VLMs still lack a stable "internal world model", positioning VidNum-1.4K as a demanding diagnostic testbed for the next generation of numerical video intelligence.