EC-Bench: Enumeration and Counting Benchmark for Ultra-Long Videos
作者: Fumihiko Tsuchiya, Taiki Miyanishi, Mahiro Ukai, Nakamasa Inoue, Shuhei Kurita, Yusuke Iwasawa, Yutaka Matsuo
分类: cs.CV
发布日期: 2026-03-31
备注: The first two authors are equally contributed. The data and code are publicly available at: https://github.com/matsuolab/EC-Bench
💡 一句话要点
EC-Bench:用于超长视频枚举和计数的基准测试,挑战多模态大语言模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 视频计数 多模态大语言模型 时间推理 基准测试
📋 核心要点
- 现有视频计数基准主要关注短视频片段,且仅评估最终数值结果,缺乏对模型时间推理能力的深入评估。
- EC-Bench通过提供长视频和明确的时间证据范围,联合评估模型在枚举、计数和时间证据定位方面的能力。
- 实验结果表明,现有MLLM在EC-Bench上表现远低于人类水平,揭示了模型在长视频理解和推理方面的不足。
📝 摘要(中文)
本文提出了EC-Bench,一个用于评估超长视频中枚举、计数和时间证据定位的基准。该基准包含152个超过30分钟的视频,以及1699个带有明确证据范围的查询。在22个多模态大语言模型(MLLM)上的测试结果表明,最佳模型在枚举任务上仅达到29.98%的准确率,在计数任务上仅达到23.74%的准确率,而人类的性能分别为78.57%和82.97%。分析表明,枚举准确率、时间定位和计数性能之间存在很强的关系。这些结果突出了当前MLLM的局限性,并将EC-Bench确立为一个具有挑战性的长视频定量推理基准。
🔬 方法详解
问题定义:论文旨在解决长视频中的计数问题,现有方法主要针对短视频,忽略了长视频中事件的稀疏性和多样性,以及长程时间推理的挑战。现有基准测试也缺乏对模型枚举和时间证据定位能力的评估,无法深入了解模型计数错误的根本原因。
核心思路:论文的核心思路是构建一个更具挑战性的长视频计数基准,不仅评估最终的计数结果,还评估模型识别和定位相关事件的能力。通过提供明确的时间证据范围,可以更精确地评估模型的时间推理能力,并分析枚举、时间定位和计数性能之间的关系。
技术框架:EC-Bench基准测试包含以下几个关键组成部分:1) 包含152个长视频(超过30分钟);2) 1699个带有明确时间证据范围的查询;3) 评估指标包括枚举准确率、计数准确率和时间定位准确率。研究人员可以使用EC-Bench来评估各种视频理解模型,特别是多模态大语言模型(MLLM)在长视频计数任务上的性能。
关键创新:EC-Bench的关键创新在于其关注长视频计数问题,并提供明确的时间证据范围。这使得研究人员可以更深入地了解模型在长视频中的时间推理能力,并分析枚举、时间定位和计数性能之间的关系。与现有基准测试相比,EC-Bench更具挑战性,更能反映真实世界场景中的计数问题。
关键设计:EC-Bench的数据集构建过程包括视频选择、查询生成和时间证据标注。视频选择侧重于包含多样化事件的长视频。查询生成旨在涵盖各种计数场景。时间证据标注由人工完成,确保标注的准确性和一致性。评估指标包括枚举准确率(模型是否正确识别所有相关事件)、计数准确率(模型是否给出正确的计数结果)和时间定位准确率(模型是否正确识别事件发生的时间范围)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在EC-Bench基准测试中,最佳MLLM在枚举任务上仅达到29.98%的准确率,在计数任务上仅达到23.74%的准确率,远低于人类的78.57%和82.97%。这表明现有MLLM在长视频理解和推理方面存在显著的局限性。此外,研究还发现枚举准确率、时间定位和计数性能之间存在很强的相关性,表明提高枚举和时间定位能力是提高计数性能的关键。
🎯 应用场景
EC-Bench的研究成果可应用于智能监控、视频分析、自动驾驶等领域。例如,在智能监控中,可以利用该技术对人群数量进行精确统计,及时发现异常情况。在自动驾驶中,可以帮助车辆准确识别和计数行人、车辆等目标,提高驾驶安全性。该基准的提出将推动长视频理解和推理技术的发展,为相关应用提供更强大的技术支持。
📄 摘要(原文)
Counting in long videos remains a fundamental yet underexplored challenge in computer vision. Real-world recordings often span tens of minutes or longer and contain sparse, diverse events, making long-range temporal reasoning particularly difficult. However, most existing video counting benchmarks focus on short clips and evaluate only the final numerical answer, providing little insight into what should be counted or whether models consistently identify relevant instances across time. We introduce EC-Bench, a benchmark that jointly evaluates enumeration, counting, and temporal evidence grounding in long-form videos. EC-Bench contains 152 videos longer than 30 minutes and 1,699 queries paired with explicit evidence spans. Across 22 multimodal large language models (MLLMs), the best model achieves only 29.98% accuracy on Enumeration and 23.74% on Counting, while human performance reaches 78.57% and 82.97%, respectively. Our analysis reveals strong relationships between enumeration accuracy, temporal grounding, and counting performance. These results highlight fundamental limitations of current MLLMs and establish EC-Bench as a challenging benchmark for long-form quantitative video reasoning.