Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning?

📄 arXiv: 2505.21374v1 📥 PDF

作者: Junhao Cheng, Yuying Ge, Teng Wang, Yixiao Ge, Jing Liao, Ying Shan

分类: cs.CV

发布日期: 2025-05-27

备注: Homepage: https://github.com/TencentARC/Video-Holmes

🔗 代码/项目: GITHUB


💡 一句话要点

提出Video-Holmes基准,评估MLLM在复杂视频推理中如福尔摩斯般思考的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频理解 多模态推理 大语言模型 基准测试 复杂推理 信息整合 视觉感知

📋 核心要点

  1. 现有视频基准主要评估视觉感知和基础能力,无法有效测试模型在复杂场景下的推理能力。
  2. Video-Holmes基准模拟福尔摩斯的推理过程,要求模型主动搜索、整合视频中的多个线索进行推理。
  3. 实验表明,现有MLLM在视觉感知方面表现良好,但在信息整合和复杂推理方面仍存在显著差距。

📝 摘要(中文)

本文提出Video-Holmes基准,旨在评估多模态大语言模型(MLLM)在复杂视频推理方面的能力,类似于人类专家。现有视频基准侧重于视觉感知和基础能力,无法充分捕捉真实世界推理的复杂性,即人类需要主动搜索、整合和分析多个线索才能得出结论。Video-Holmes包含1837个问题,源自270部手动标注的悬疑短片,涵盖七个精心设计的任务。每个任务都通过识别关键事件和因果关系,并设计问题来要求模型主动定位和连接分散在不同视频片段中的多个相关视觉线索。对现有MLLM的评估表明,尽管这些模型在视觉感知方面表现出色,但在信息整合方面存在困难,并且经常遗漏关键线索。例如,性能最佳的模型Gemini-2.5-Pro的准确率仅为45%,大多数模型得分低于40%。Video-Holmes旨在作为多模态推理的“福尔摩斯测试”,激励模型更像人类一样进行推理,并强调该领域持续存在的挑战。该基准已在https://github.com/TencentARC/Video-Holmes上发布。

🔬 方法详解

问题定义:现有视频理解基准主要关注视觉感知和简单的 grounding 任务,缺乏对复杂推理能力的有效评估。这些基准无法模拟真实世界中需要整合多个线索才能得出结论的场景,因此难以衡量模型是否具备像人类专家一样的推理能力。

核心思路:Video-Holmes基准的核心思路是模拟福尔摩斯的推理过程,设计需要模型主动搜索、整合和分析多个分散在视频中的线索才能回答的问题。通过这种方式,可以更全面地评估模型在复杂场景下的推理能力。

技术框架:Video-Holmes基准的构建流程如下:1) 选择悬疑短片作为数据源;2) 人工标注视频中的关键事件和因果关系;3) 基于标注信息,设计需要整合多个线索才能回答的问题;4) 将问题分为七个不同的任务,以评估模型在不同方面的推理能力。

关键创新:Video-Holmes 的关键创新在于其问题设计方式,它不再依赖于显式的提示或孤立的视觉线索,而是要求模型主动地在视频中寻找和连接多个相关的视觉线索。这种设计更贴近真实世界的推理场景,可以更有效地评估模型的复杂推理能力。

关键设计:Video-Holmes 包含七个精心设计的任务,每个任务都侧重于不同的推理能力,例如因果推理、预测推理和异常检测。问题的设计需要仔细考虑视频中的关键事件和因果关系,确保模型必须整合多个线索才能得出正确的答案。具体的技术细节(如参数设置、损失函数、网络结构等)取决于被评估的 MLLM 模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

对现有最先进的MLLM的评估表明,尽管这些模型在视觉感知方面表现出色,但在信息整合方面存在困难,并且经常遗漏关键线索。例如,性能最佳的模型Gemini-2.5-Pro在Video-Holmes上的准确率仅为45%,大多数模型得分低于40%。这表明现有模型在复杂视频推理方面仍有很大的提升空间。

🎯 应用场景

Video-Holmes基准可用于评估和提升多模态大语言模型在视频理解和推理方面的能力。该基准有助于推动模型在视频监控、自动驾驶、智能助手等领域的应用,使其能够更好地理解和分析视频内容,并做出更准确的决策。未来,该基准可以扩展到更长的视频和更复杂的场景,以进一步提高模型的推理能力。

📄 摘要(原文)

Recent advances in CoT reasoning and RL post-training have been reported to enhance video reasoning capabilities of MLLMs. This progress naturally raises a question: can these models perform complex video reasoning in a manner comparable to human experts? However, existing video benchmarks primarily evaluate visual perception and grounding abilities, with questions that can be answered based on explicit prompts or isolated visual cues. Such benchmarks do not fully capture the intricacies of real-world reasoning, where humans must actively search for, integrate, and analyze multiple clues before reaching a conclusion. To address this issue, we present Video-Holmes, a benchmark inspired by the reasoning process of Sherlock Holmes, designed to evaluate the complex video reasoning capabilities of MLLMs. Video-Holmes consists of 1,837 questions derived from 270 manually annotated suspense short films, which spans seven carefully designed tasks. Each task is constructed by first identifying key events and causal relationships within films, and then designing questions that require models to actively locate and connect multiple relevant visual clues scattered across different video segments. Our comprehensive evaluation of state-of-the-art MLLMs reveals that, while these models generally excel at visual perception, they encounter substantial difficulties with integrating information and often miss critical clues. For example, the best-performing model, Gemini-2.5-Pro, achieves an accuracy of only 45%, with most models scoring below 40%. We aim that Video-Holmes can serve as a "Holmes-test" for multimodal reasoning, motivating models to reason more like humans and emphasizing the ongoing challenges in this field. The benchmark is released in https://github.com/TencentARC/Video-Holmes.