Reasoning over Video: Evaluating How MLLMs Extract, Integrate, and Reconstruct Spatiotemporal Evidence
作者: Seunghwan Bang, Hwanjun Song
分类: cs.CV
发布日期: 2026-03-13
备注: 35 pages, 8 figures, 21 tables
💡 一句话要点
VAEX-BENCH:提出用于评估MLLM时空抽象推理能力的合成视频基准
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时空推理 多模态学习 视频理解 具身智能体 基准测试 大型语言模型 抽象推理
📋 核心要点
- 现有视频理解基准侧重抽取式推理,无法有效评估模型对时空信息的抽象整合能力。
- 论文提出VAEX-BENCH,一个包含抽象和抽取式推理任务的合成视频基准,用于评估MLLM的时空推理能力。
- 实验表明,现有MLLM在抽象时空推理任务上存在局限性,VAEX-BENCH能够有效暴露这些瓶颈。
📝 摘要(中文)
随着具身智能体的日益普及,对时空视频理解的需求也随之增长。然而,现有的基准测试主要侧重于抽取式推理,即答案可以直接在时空事件中找到。多模态大型语言模型(MLLM)是否能够执行抽象时空推理,即整合时间上的观察结果、结合分散的线索并推断隐含的空间和上下文结构,仍然不清楚。为了弥补这一差距,我们通过引入一个结构化的评估分类法,系统地针对其核心维度,形式化了来自视频的抽象时空推理,并构建了一个可控的、场景驱动的合成第一人称视角视频数据集,专门用于评估抽象时空推理能力,涵盖了对象、房间和楼层平面图级别的场景。基于此框架,我们提出了VAEX-BENCH,一个包含五个抽象推理任务及其抽取式对应任务的基准。我们广泛的实验比较了最先进的MLLM在抽取式和抽象式设置下的性能,揭示了它们在抽象任务上的局限性,并提供了对潜在瓶颈的细粒度分析。该数据集即将发布。
🔬 方法详解
问题定义:现有的视频理解基准测试主要关注抽取式推理,即答案可以直接从视频片段中提取。然而,对于具身智能体而言,更重要的是能够进行抽象时空推理,这需要模型整合时间上的观察结果,结合分散的线索,并推断隐含的空间和上下文结构。现有方法难以有效评估模型在这些方面的能力。
核心思路:论文的核心思路是构建一个可控的、场景驱动的合成视频数据集,并设计相应的抽象推理任务,从而系统地评估MLLM的时空推理能力。通过对比模型在抽象和抽取式任务上的表现,可以更清晰地了解模型的优势和不足。
技术框架:VAEX-BENCH包含以下几个关键组成部分:1) 一个合成视频生成引擎,用于生成包含对象、房间和楼层平面图级别场景的第一人称视角视频;2) 一套结构化的评估分类法,用于形式化抽象时空推理的核心维度;3) 五个抽象推理任务,以及对应的抽取式任务;4) 一套评估指标,用于衡量模型在不同任务上的性能。
关键创新:该论文的关键创新在于:1) 提出了抽象时空推理的概念,并将其形式化为一个结构化的评估分类法;2) 构建了一个可控的合成视频数据集,专门用于评估抽象时空推理能力;3) 设计了一套包含抽象和抽取式任务的基准测试,可以更全面地评估MLLM的性能。与现有方法相比,该方法能够更有效地暴露模型在抽象推理方面的局限性。
关键设计:数据集的生成过程需要仔细设计场景、对象和动作的组合,以确保任务的难度和多样性。抽象推理任务的设计需要考虑到不同的时空推理维度,例如时间上的整合、空间关系的推断和上下文信息的利用。评估指标的选择需要能够准确地反映模型在不同任务上的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有的最先进的MLLM在抽象时空推理任务上的性能远低于抽取式任务,表明它们在整合时间信息、推断空间关系和利用上下文信息方面存在局限性。VAEX-BENCH能够有效区分不同模型的性能,并为未来的研究提供了一个有价值的评估平台。
🎯 应用场景
该研究成果可应用于提升具身智能体的视频理解能力,例如机器人导航、家庭助手等。通过评估和改进MLLM的抽象时空推理能力,可以使智能体更好地理解周围环境,并做出更合理的决策。此外,该基准测试也可以促进多模态学习和视频理解领域的研究。
📄 摘要(原文)
The growing interest in embodied agents increases the demand for spatiotemporal video understanding, yet existing benchmarks largely emphasize extractive reasoning, where answers can be explicitly presented within spatiotemporal events. It remains unclear whether multimodal large language models can instead perform abstractive spatiotemporal reasoning, which requires integrating observations over time, combining dispersed cues, and inferring implicit spatial and contextual structure. To address this gap, we formalize abstractive spatiotemporal reasoning from videos by introducing a structured evaluation taxonomy that systematically targets its core dimensions and construct a controllable, scenario-driven synthetic egocentric video dataset tailored to evaluate abstractive spatiotemporal reasoning capabilities, spanning object-, room-, and floor-plan-level scenarios. Based on this framework, we present VAEX-BENCH, a benchmark comprising five abstractive reasoning tasks together with their extractive counterparts. Our extensive experiments compare the performance of state-of-the-art MLLMs under extractive and abstractive settings, exposing their limitations on abstractive tasks and providing a fine-grained analysis of the underlying bottlenecks. The dataset will be released soon.