InfiniBench: A Benchmark for Large Multi-Modal Models in Long-Form Movies and TV Shows
作者: Kirolos Ataallah, Eslam Abdelrahman, Mahmoud Ahmed, Chenhui Gou, Khushbu Pahwa, Jian Ding, Mohamed Elhoseiny
分类: cs.CV
发布日期: 2024-06-28 (更新: 2025-11-08)
备注: Accepted for oral presentation at the EMNLP 2025 main conference
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
InfiniBench:长视频多模态大模型评测基准,挑战电影和电视剧理解
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 多模态学习 视觉语言模型 基准测试 电影理解
📋 核心要点
- 现有基准测试难以充分评估模型处理时间跨度长、叙事复杂的长视频内容(如电影、电视剧)所需的认知能力。
- InfiniBench通过提供大规模、多样化的长视频数据集和问答对,以及涵盖多种技能的评估任务,来全面评估模型。
- 实验结果表明,现有模型在长视频理解方面表现不佳,过度依赖世界知识,但多模态输入能显著提升模型性能。
📝 摘要(中文)
本文提出了InfiniBench,一个全面的基准测试,旨在严格评估模型在长视频理解方面的能力,特别是针对电影和电视剧等长篇内容。InfiniBench包含超过1000小时的视频内容,平均视频长度为53分钟,并提供了最大的长视频理解问答数据集,总计约87.7K个问答对。该基准涵盖了八种不同的技能,包括基于定位的技能(如场景转换、角色动作)和基于推理的技能(如深度上下文理解、多事件链接)。InfiniBench提供多种标注格式,包括多项选择题和开放式问题。研究人员对商业模型(GPT-4o、Gemini 2.0 Flash)和最新的开源视觉语言模型(如Qwen2.5-VL、InternVL3.0)进行了深入评估。结果表明,模型在各个方面都面临挑战,即使是最好的模型GPT-4o在基于定位的技能上也仅达到47.1%的准确率,大多数模型的性能接近或略高于随机水平。模型严重依赖世界知识,仅使用元数据(如视频标题)就能获得出人意料的高分,这表明模型倾向于依赖预训练知识,而不是实际的视觉或时间理解。然而,当提供完整的视频和字幕上下文时,模型表现出显著的改进,证实了多模态输入在视频理解中的关键作用。InfiniBench已公开发布。
🔬 方法详解
问题定义:现有的大部分多模态模型在处理长视频(如电影和电视剧)时,缺乏足够有效的评估基准。现有的基准测试通常无法全面测试模型在时间维度上的推理能力,以及对复杂叙事结构的理解能力。因此,模型在长视频理解方面仍然面临巨大的挑战。
核心思路:InfiniBench的核心思路是构建一个大规模、多样化、具有挑战性的长视频理解基准。通过提供大量的长视频数据、丰富的问答对以及涵盖多种认知技能的评估任务,来全面评估模型在长视频理解方面的能力。该基准旨在推动多模态模型在长视频理解方面的研究进展。
技术框架:InfiniBench基准测试主要包含以下几个关键组成部分:1) 视频数据集:包含超过1000小时的电影和电视剧视频内容,平均视频长度为53分钟。2) 问答数据集:包含约87.7K个问答对,涵盖了八种不同的技能,包括场景转换、角色动作、深度上下文理解和多事件链接等。3) 评估指标:使用准确率等指标来评估模型在不同技能上的表现。4) 基线模型:对多个商业和开源模型进行了评估,作为基线参考。
关键创新:InfiniBench最重要的技术创新点在于其专注于长视频理解,并提供了大规模、多样化的数据集和评估任务。与现有的短视频或图像理解基准相比,InfiniBench更具挑战性,更能反映模型在实际应用中的性能。此外,InfiniBench还涵盖了多种认知技能,可以更全面地评估模型的理解能力。
关键设计:InfiniBench在数据集构建和评估任务设计方面都进行了精心的设计。例如,为了确保问答对的多样性和难度,采用了多种标注方法,包括人工标注和自动生成。在评估任务设计方面,考虑了不同技能的特点,设计了相应的评估指标和方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是目前最先进的模型(如GPT-4o)在InfiniBench上的表现仍然不尽如人意,在基于定位的技能上仅达到47.1%的准确率。模型在很大程度上依赖于世界知识,仅使用元数据就能获得较高的分数。然而,当提供完整的视频和字幕上下文时,模型性能得到显著提升,证实了多模态输入的重要性。
🎯 应用场景
InfiniBench的潜在应用领域包括智能视频分析、电影和电视剧推荐系统、智能客服、教育娱乐等。该基准可以帮助研究人员开发更强大的长视频理解模型,从而提升这些应用的用户体验和智能化水平。未来,该基准可以进一步扩展到其他类型的长视频内容,如纪录片、新闻报道等。
📄 摘要(原文)
Understanding long-form videos, such as movies and TV episodes ranging from tens of minutes to two hours, remains a significant challenge for multi-modal models. Existing benchmarks often fail to test the full range of cognitive skills needed to process these temporally rich and narratively complex inputs. Therefore, we introduce InfiniBench, a comprehensive benchmark designed to evaluate the capabilities of models in long video understanding rigorously. InfiniBench offers:(1) Over 1,000 hours of video content, with an average video length of 53 minutes. (2) The largest set of question-answer pairs for long video comprehension, totaling around 87.7 K. (3) Eight diverse skills that span both grounding-based (e.g., scene transitions, character actions) and reasoning-based (e.g., deep context understanding, multi-event linking). (4) Rich annotation formats, including both multiple-choice and open-ended questions. We conducted an in-depth evaluation across both commercial (GPT-4o, Gemini 2.0 Flash) and most recent open-source vision-language models such as Qwen2.5-VL, InternVL3.0). Results reveal that:(1) Models struggle across the board: Even the best model, GPT-4o, achieves only 47.1 % on grounding-based skills, with most models performing near or just above random chance. (2) Strong reliance on world knowledge: Models achieve surprisingly high scores using only metadata (e.g., video titles), highlighting a tendency to rely on pre-trained knowledge rather than actual visual or temporal understanding. (3) Multi-Modal Importance: When provided with full video and subtitle context, however, models show substantial improvements, confirming the critical role of multimodal input in video understanding. InfiniBench is publicly available at https://vision-cair.github.io/Infinibench