VGenST-Bench: A Benchmark for Spatio-Temporal Reasoning via Active Video Synthesis

📄 arXiv: 2605.22570v1 📥 PDF

作者: Jinho Park, Youbin Kim, Hogun Park, Eunbyung Park

分类: cs.CV, cs.AI

发布日期: 2026-05-21

备注: 82 pages, 91 figures (7 in main paper, 84 in appendix). Project page: https://zinosii.github.io/VGenST-Bench/


💡 一句话要点

提出VGenST-Bench,通过主动视频合成评估多模态大语言模型中的时空推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时空推理 多模态大语言模型 视频合成 基准数据集 主动学习

📋 核心要点

  1. 现有时空推理数据集依赖静态图像或被动视频,难以评估细粒度推理能力。
  2. VGenST-Bench通过生成模型主动合成可控视频,构建多样化评估场景。
  3. 设计分层任务套件,解耦低级视觉感知和高级时空推理,实现细粒度诊断。

📝 摘要(中文)

时空推理是多模态大语言模型(MLLM)在现实世界中运行的核心能力。因此,精确评估它已成为一项至关重要的挑战。然而,现有的时空推理基准数据集主要依赖于静态图像集或被动收集的视频数据,这限制了对细粒度推理能力的评估。在本文中,我们介绍了VGenST-Bench,这是一个视频基准,它采用生成模型来主动合成高度可控和多样化的评估场景。为了构建VGenST-Bench,我们提出了一个包含人工质量控制阶段的多智能体流水线,以确保所有生成的视频和问答对的质量。我们建立了一个全面的3x2x2视频分类法,包括空间尺度、视角和场景动态,以涵盖不同的场景。此外,我们设计了一个分层任务套件,将低级视觉感知与高级时空推理分离。通过将范式从被动收集转变为主动合成,VGenST-Bench能够对MLLM中的时空理解进行细粒度的诊断。

🔬 方法详解

问题定义:现有的时空推理基准数据集主要依赖于静态图像或被动收集的视频数据,这些数据在控制场景变化和评估细粒度推理能力方面存在局限性。因此,如何构建一个能够主动生成多样化、可控场景,并能有效评估多模态大语言模型(MLLM)时空推理能力的基准数据集,成为了一个亟待解决的问题。现有方法难以对模型的时空理解能力进行细致的诊断。

核心思路:VGenST-Bench的核心思路是通过主动视频合成来构建一个可控、多样化的时空推理基准。通过使用生成模型,可以精确控制视频中的各种因素,例如空间尺度、视角和场景动态,从而创建各种不同的评估场景。此外,通过设计分层任务套件,可以将低级视觉感知与高级时空推理解耦,从而更准确地评估模型的时空推理能力。

技术框架:VGenST-Bench的构建包含以下几个主要阶段:首先,定义一个3x2x2的视频分类法,涵盖空间尺度、视角和场景动态三个维度,以确保生成视频的多样性。其次,使用多智能体流水线生成视频和问答对,并加入人工质量控制阶段,以保证数据的质量。最后,设计一个分层任务套件,包含多个任务,用于评估模型的不同层次的时空推理能力。

关键创新:VGenST-Bench的关键创新在于将范式从被动数据收集转变为主动视频合成。这种方法能够更灵活地控制评估场景,并生成更具挑战性的测试用例。此外,分层任务套件的设计能够更准确地诊断模型的时空推理能力,而不仅仅是简单的视觉感知。

关键设计:VGenST-Bench的关键设计包括:1) 3x2x2视频分类法,用于指导视频生成,确保场景的多样性;2) 多智能体流水线,用于自动生成视频和问答对,提高效率;3) 人工质量控制阶段,用于保证数据的质量;4) 分层任务套件,用于评估不同层次的时空推理能力。具体的生成模型和任务设计细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VGenST-Bench通过主动合成视频,构建了一个多样化且可控的时空推理基准。该基准包含一个分层任务套件,能够有效解耦低级视觉感知和高级时空推理,从而实现对MLLM时空理解能力的细粒度诊断。具体的性能数据和对比基线在摘要中未提及,属于未知信息。

🎯 应用场景

VGenST-Bench可用于评估和提升多模态大语言模型在机器人导航、自动驾驶、视频监控等领域的时空推理能力。通过该基准,可以更有效地诊断模型在理解和预测复杂动态场景方面的不足,从而推动相关技术的发展和应用。

📄 摘要(原文)

Spatio-temporal reasoning is a core capability for Multimodal Large Language Models (MLLMs) operating in the real world. As such, evaluating it precisely has become an essential challenge. However, existing spatio-temporal reasoning benchmark datasets primarily rely on static image sets or passively curated video data, which limits the evaluation of fine-grained reasoning capabilities. In this paper, we introduce VGenST-Bench, a video benchmark that employs generative models to actively synthesize highly controlled and diverse evaluation scenarios. To construct VGenST-Bench, we propose a multi-agent pipeline incorporating a human quality control stage, ensuring the quality of all generated videos and QA pairs. We establish a comprehensive 3x2x2 video taxonomy, encompassing Spatial Scale, Perspective, and Scene Dynamics to span diverse scenarios. Furthermore, we design a hierarchical task suite that decouples low-level visual perception from high-level spatio-temporal reasoning. By shifting the paradigm from passive curation to active synthesis, VGenST-Bench enables fine-grained diagnosis of spatio-temporal understanding in MLLMs.