InfiniBench: A Benchmark for Large Multi-Modal Models in Long-Form Movies and TV Shows

作者: Kirolos Ataallah, Eslam Abdelrahman, Mahmoud Ahmed, Chenhui Gou, Khushbu Pahwa, Jian Ding, Mohamed Elhoseiny

分类: cs.CV

发布日期: 2024-06-28 (更新: 2025-11-08)

备注: Accepted for oral presentation at the EMNLP 2025 main conference

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

InfiniBench：长视频多模态大模型评测基准，挑战电影和电视剧理解

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 多模态学习 视觉语言模型 基准测试 电影理解

📋 核心要点

现有基准测试难以充分评估模型处理时间跨度长、叙事复杂的长视频内容（如电影、电视剧）所需的认知能力。
InfiniBench通过提供大规模、多样化的长视频数据集和问答对，以及涵盖多种技能的评估任务，来全面评估模型。
实验结果表明，现有模型在长视频理解方面表现不佳，过度依赖世界知识，但多模态输入能显著提升模型性能。

📝 摘要（中文）

本文提出了InfiniBench，一个全面的基准测试，旨在严格评估模型在长视频理解方面的能力，特别是针对电影和电视剧等长篇内容。InfiniBench包含超过1000小时的视频内容，平均视频长度为53分钟，并提供了最大的长视频理解问答数据集，总计约87.7K个问答对。该基准涵盖了八种不同的技能，包括基于定位的技能（如场景转换、角色动作）和基于推理的技能（如深度上下文理解、多事件链接）。InfiniBench提供多种标注格式，包括多项选择题和开放式问题。研究人员对商业模型（GPT-4o、Gemini 2.0 Flash）和最新的开源视觉语言模型（如Qwen2.5-VL、InternVL3.0）进行了深入评估。结果表明，模型在各个方面都面临挑战，即使是最好的模型GPT-4o在基于定位的技能上也仅达到47.1%的准确率，大多数模型的性能接近或略高于随机水平。模型严重依赖世界知识，仅使用元数据（如视频标题）就能获得出人意料的高分，这表明模型倾向于依赖预训练知识，而不是实际的视觉或时间理解。然而，当提供完整的视频和字幕上下文时，模型表现出显著的改进，证实了多模态输入在视频理解中的关键作用。InfiniBench已公开发布。

🔬 方法详解

问题定义：现有的大部分多模态模型在处理长视频（如电影和电视剧）时，缺乏足够有效的评估基准。现有的基准测试通常无法全面测试模型在时间维度上的推理能力，以及对复杂叙事结构的理解能力。因此，模型在长视频理解方面仍然面临巨大的挑战。

核心思路：InfiniBench的核心思路是构建一个大规模、多样化、具有挑战性的长视频理解基准。通过提供大量的长视频数据、丰富的问答对以及涵盖多种认知技能的评估任务，来全面评估模型在长视频理解方面的能力。该基准旨在推动多模态模型在长视频理解方面的研究进展。

技术框架：InfiniBench基准测试主要包含以下几个关键组成部分：1) 视频数据集：包含超过1000小时的电影和电视剧视频内容，平均视频长度为53分钟。2) 问答数据集：包含约87.7K个问答对，涵盖了八种不同的技能，包括场景转换、角色动作、深度上下文理解和多事件链接等。3) 评估指标：使用准确率等指标来评估模型在不同技能上的表现。4) 基线模型：对多个商业和开源模型进行了评估，作为基线参考。

关键创新：InfiniBench最重要的技术创新点在于其专注于长视频理解，并提供了大规模、多样化的数据集和评估任务。与现有的短视频或图像理解基准相比，InfiniBench更具挑战性，更能反映模型在实际应用中的性能。此外，InfiniBench还涵盖了多种认知技能，可以更全面地评估模型的理解能力。

关键设计：InfiniBench在数据集构建和评估任务设计方面都进行了精心的设计。例如，为了确保问答对的多样性和难度，采用了多种标注方法，包括人工标注和自动生成。在评估任务设计方面，考虑了不同技能的特点，设计了相应的评估指标和方法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是目前最先进的模型（如GPT-4o）在InfiniBench上的表现仍然不尽如人意，在基于定位的技能上仅达到47.1%的准确率。模型在很大程度上依赖于世界知识，仅使用元数据就能获得较高的分数。然而，当提供完整的视频和字幕上下文时，模型性能得到显著提升，证实了多模态输入的重要性。

🎯 应用场景

InfiniBench的潜在应用领域包括智能视频分析、电影和电视剧推荐系统、智能客服、教育娱乐等。该基准可以帮助研究人员开发更强大的长视频理解模型，从而提升这些应用的用户体验和智能化水平。未来，该基准可以进一步扩展到其他类型的长视频内容，如纪录片、新闻报道等。

📄 摘要（原文）

Understanding long-form videos, such as movies and TV episodes ranging from tens of minutes to two hours, remains a significant challenge for multi-modal models. Existing benchmarks often fail to test the full range of cognitive skills needed to process these temporally rich and narratively complex inputs. Therefore, we introduce InfiniBench, a comprehensive benchmark designed to evaluate the capabilities of models in long video understanding rigorously. InfiniBench offers:(1) Over 1,000 hours of video content, with an average video length of 53 minutes. (2) The largest set of question-answer pairs for long video comprehension, totaling around 87.7 K. (3) Eight diverse skills that span both grounding-based (e.g., scene transitions, character actions) and reasoning-based (e.g., deep context understanding, multi-event linking). (4) Rich annotation formats, including both multiple-choice and open-ended questions. We conducted an in-depth evaluation across both commercial (GPT-4o, Gemini 2.0 Flash) and most recent open-source vision-language models such as Qwen2.5-VL, InternVL3.0). Results reveal that:(1) Models struggle across the board: Even the best model, GPT-4o, achieves only 47.1 % on grounding-based skills, with most models performing near or just above random chance. (2) Strong reliance on world knowledge: Models achieve surprisingly high scores using only metadata (e.g., video titles), highlighting a tendency to rely on pre-trained knowledge rather than actual visual or temporal understanding. (3) Multi-Modal Importance: When provided with full video and subtitle context, however, models show substantial improvements, confirming the critical role of multimodal input in video understanding. InfiniBench is publicly available at https://vision-cair.github.io/Infinibench

InfiniBench: A Benchmark for Large Multi-Modal Models in Long-Form Movies and TV Shows

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理