VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?
作者: Yuanxin Liu, Kun Ouyang, Haoning Wu, Yi Liu, Lin Sui, Xinhao Li, Yan Zhong, Y. Charles, Xinyu Zhou, Xu Sun
分类: cs.CV
发布日期: 2025-05-29
备注: Project Page: https://llyx97.github.io/video_reason_bench/
💡 一句话要点
VideoReasonBench:提出面向视觉复杂推理的多模态大模型评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频推理 多模态大模型 视觉理解 基准测试 思维链 潜在状态 复杂推理
📋 核心要点
- 现有视频理解基准缺乏足够的推理深度,难以有效评估多模态大模型(MLLM)的复杂推理能力,且过度依赖知识而非视觉内容。
- VideoReasonBench通过构建包含潜在状态操作的视频,并设计多层次推理问题,来评估模型在视觉信息回忆、状态推断和未来预测方面的能力。
- 实验结果表明,现有MLLM在VideoReasonBench上表现不佳,而增加推理预算可以显著提升性能,验证了该基准的有效性和挑战性。
📝 摘要(中文)
本文提出了VideoReasonBench,一个旨在评估视觉中心、复杂视频推理能力的基准。现有基准缺乏足够的推理深度来体现思维链(CoT)的优势,且任务通常是知识驱动而非视觉驱动。VideoReasonBench中的每个视频都描绘了一系列对潜在状态的精细操作,这些状态仅在视频的部分内容中可见。问题评估三个递进的视频推理能力:回忆观察到的视觉信息,推断潜在状态的内容,以及预测视频之外的信息。模型需要精确回忆视频中的多个操作,并逐步推理才能得到正确答案。使用VideoReasonBench,对18个最先进的多模态LLM(MLLM)进行了全面评估,发现它们在复杂视频推理方面表现不佳,例如,GPT-4o仅达到6.9%的准确率,而思维增强的Gemini-2.5-Pro以56.0%的准确率显著优于其他模型。对“测试时缩放”的调查进一步表明,扩展的思维预算对于提高VideoReasonBench的性能至关重要,而在现有视频基准上,扩展的思维预算几乎没有或只有极小的益处。
🔬 方法详解
问题定义:现有视频理解评测基准无法充分评估多模态大模型在视觉信息基础上的复杂推理能力。现有基准要么侧重于知识驱动,要么推理链条较短,无法有效考察模型对视频内容进行深度理解和逐步推理的能力。因此,需要一个更具挑战性的基准来推动视觉中心复杂视频推理的研究。
核心思路:VideoReasonBench的核心思路是构建包含对潜在状态进行一系列精细操作的视频,并设计需要逐步推理才能回答的问题。通过这种方式,可以迫使模型不仅要准确回忆视频中的视觉信息,还要能够推断出隐藏的状态,并预测未来的发展趋势。这种设计旨在模拟现实世界中需要复杂推理的场景。
技术框架:VideoReasonBench的整体框架包括以下几个关键组成部分:1) 视频生成模块:用于生成包含潜在状态操作的视频序列。2) 问题生成模块:根据视频内容生成三个层次的问题,包括回忆、推断和预测。3) 评估模块:用于评估模型在回答问题时的准确率。整个流程是,首先生成视频,然后根据视频生成问题,最后使用问题来评估模型的推理能力。
关键创新:VideoReasonBench最重要的技术创新点在于其任务设计的独特性。与现有基准相比,VideoReasonBench更加强调视觉信息在推理过程中的作用,并且需要模型进行更深层次的推理。通过引入潜在状态和多步骤操作,VideoReasonBench能够更好地评估模型在复杂场景下的推理能力。
关键设计:在VideoReasonBench中,视频的长度和操作的复杂程度是关键的设计参数。为了保证推理的难度,视频需要包含足够多的操作步骤,并且操作之间的关系需要足够复杂。此外,问题的设计也至关重要,需要确保问题能够充分考察模型在不同层次上的推理能力。具体来说,回忆类问题侧重于考察模型对视觉信息的记忆能力,推断类问题侧重于考察模型对潜在状态的理解能力,预测类问题侧重于考察模型对未来趋势的预测能力。
🖼️ 关键图片
📊 实验亮点
实验结果显示,现有最先进的多模态大模型在VideoReasonBench上的表现普遍较差,例如GPT-4o的准确率仅为6.9%。然而,通过增加推理预算,例如使用更长的思维链,模型的性能可以得到显著提升,Gemini-2.5-Pro在思维增强后达到了56.0%的准确率,表明该基准对模型的推理能力提出了更高的要求。
🎯 应用场景
VideoReasonBench可用于评估和提升多模态大模型在视频理解、智能监控、自动驾驶、机器人导航等领域的应用能力。通过更有效地评估模型的视觉推理能力,可以推动这些领域的发展,例如,在自动驾驶中,模型需要理解复杂的交通场景并预测其他车辆的行驶轨迹。
📄 摘要(原文)
Recent studies have shown that long chain-of-thought (CoT) reasoning can significantly enhance the performance of large language models (LLMs) on complex tasks. However, this benefit is yet to be demonstrated in the domain of video understanding, since most existing benchmarks lack the reasoning depth required to demonstrate the advantages of extended CoT chains. While recent efforts have proposed benchmarks aimed at video reasoning, the tasks are often knowledge-driven and do not rely heavily on visual content. To bridge this gap, we introduce VideoReasonBench, a benchmark designed to evaluate vision-centric, complex video reasoning. To ensure visual richness and high reasoning complexity, each video in VideoReasonBench depicts a sequence of fine-grained operations on a latent state that is only visible in part of the video. The questions evaluate three escalating levels of video reasoning skills: recalling observed visual information, inferring the content of latent states, and predicting information beyond the video. Under such task setting, models have to precisely recall multiple operations in the video, and perform step-by-step reasoning to get correct final answers for these questions. Using VideoReasonBench, we comprehensively evaluate 18 state-of-the-art multimodal LLMs (MLLMs), finding that most perform poorly on complex video reasoning, e.g., GPT-4o achieves only 6.9% accuracy, while the thinking-enhanced Gemini-2.5-Pro significantly outperforms others with 56.0% accuracy. Our investigations on "test-time scaling" further reveal that extended thinking budget, while offering none or minimal benefits on existing video benchmarks, is essential for improving the performance on VideoReasonBench.