ExpVid: A Benchmark for Experiment Video Understanding & Reasoning

📄 arXiv: 2510.11606v1 📥 PDF

作者: Yicheng Xu, Yue Wu, Jiashuo Yu, Ziang Yan, Tianxiang Jiang, Yinan He, Qingsong Zhao, Kai Chen, Yu Qiao, Limin Wang, Manabu Okumura, Yi Wang

分类: cs.CV

发布日期: 2025-10-13

备注: Data & Code: https://github.com/OpenGVLab/ExpVid


💡 一句话要点

ExpVid:用于实验视频理解与推理的基准数据集,挑战多模态大语言模型在科学实验中的应用。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 实验视频理解 多模态大语言模型 科学推理 基准数据集 视觉中心 细粒度感知 程序理解 人工智能辅助科研

📋 核心要点

  1. 现有基准测试缺乏对真实实验室环境中细粒度和长时间序列实验的评估,无法准确衡量MLLM在科学领域的潜力。
  2. ExpVid通过构建一个包含细粒度感知、程序理解和科学推理三级任务的基准数据集,系统地评估MLLM在实验视频上的表现。
  3. 实验结果表明,现有MLLM在细粒度识别、状态跟踪和科学推理方面存在不足,且专有模型在高阶推理方面优于开源模型。

📝 摘要(中文)

多模态大语言模型(MLLM)有望通过解释复杂的实验程序来加速科学发现。然而,由于现有基准忽略了真实实验室工作,特别是湿实验室环境中细粒度和长时程的特性,因此对它们的能力了解不足。为了弥合这一差距,我们推出了ExpVid,这是第一个旨在系统评估MLLM在科学实验视频上的基准。ExpVid从同行评审的视频出版物中整理而来,具有一个新的三级任务层次结构,反映了科学过程:(1)对工具、材料和动作的细粒度感知;(2)对步骤顺序和完整性的程序理解;(3)将完整实验与其已发表结论联系起来的科学推理。我们的视觉中心注释流程,结合了自动生成和多学科专家验证,确保任务需要视觉基础。我们在ExpVid上评估了19个领先的MLLM,发现它们擅长粗粒度识别,但在消除细微细节的歧义、跟踪随时间的状态变化以及将实验程序与科学结果联系起来方面存在困难。我们的结果表明,专有模型和开源模型之间存在显著的性能差距,尤其是在高阶推理方面。ExpVid不仅提供了一种诊断工具,还为开发能够成为科学实验中值得信赖的合作伙伴的MLLM规划了路线图。

🔬 方法详解

问题定义:现有MLLM在理解和推理科学实验视频方面存在挑战,主要体现在无法准确识别细粒度的实验步骤、工具和材料,难以跟踪实验过程中的状态变化,以及无法将实验过程与最终的科学结论联系起来。现有基准数据集缺乏对这些能力的针对性评估,阻碍了MLLM在科学领域的应用。

核心思路:ExpVid的核心思路是构建一个更贴近真实科研场景的基准数据集,通过设计包含细粒度感知、程序理解和科学推理三个层级的任务,全面评估MLLM在理解和推理实验视频方面的能力。该数据集的构建过程强调视觉基础,确保模型需要利用视觉信息来完成任务。

技术框架:ExpVid数据集的构建流程主要包括以下几个阶段:1) 从同行评审的视频出版物中收集实验视频;2) 设计三级任务层次结构,包括细粒度感知、程序理解和科学推理;3) 采用视觉中心注释流程,结合自动生成和多学科专家验证,为每个视频生成高质量的标注;4) 评估现有MLLM在ExpVid上的性能,并分析其优缺点。

关键创新:ExpVid的关键创新在于其针对科学实验视频理解与推理任务的特性,设计了三级任务层次结构,并采用了视觉中心注释流程。这种设计能够更全面、更准确地评估MLLM在科学领域的应用潜力。此外,ExpVid是首个专注于实验视频理解的基准数据集,填补了该领域的空白。

关键设计:ExpVid的三级任务层次结构是其关键设计之一。细粒度感知任务要求模型识别实验中的工具、材料和动作;程序理解任务要求模型理解实验步骤的顺序和完整性;科学推理任务要求模型将实验过程与最终的科学结论联系起来。此外,视觉中心注释流程也至关重要,它确保标注信息与视频内容紧密相关,避免模型仅仅依赖文本信息进行推理。

📊 实验亮点

ExpVid对19个领先的MLLM进行了评估,结果表明,虽然这些模型在粗粒度识别方面表现良好,但在细粒度细节区分、时间状态跟踪以及实验程序与科学结果的关联方面存在明显不足。专有模型在高阶推理任务上的表现明显优于开源模型,揭示了当前MLLM在科学推理能力上的差距,并为未来的研究方向提供了指导。

🎯 应用场景

ExpVid的研究成果可应用于开发能够辅助科学家进行实验设计、数据分析和结果解释的智能系统。这些系统可以自动理解实验视频,提取关键信息,并提供有价值的建议,从而加速科学发现的进程。此外,ExpVid还可以用于评估和改进MLLM在科学领域的应用能力,推动人工智能在科学研究中的发展。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) hold promise for accelerating scientific discovery by interpreting complex experimental procedures. However, their true capabilities are poorly understood, as existing benchmarks neglect the fine-grained and long-horizon nature of authentic laboratory work, especially in wet-lab settings. To bridge this gap, we introduce ExpVid, the first benchmark designed to systematically evaluate MLLMs on scientific experiment videos. Curated from peer-reviewed video publications, ExpVid features a new three-level task hierarchy that mirrors the scientific process: (1) Fine-grained Perception of tools, materials, and actions; (2) Procedural Understanding of step order and completeness; and (3) Scientific Reasoning that connects the full experiment to its published conclusions. Our vision-centric annotation pipeline, combining automated generation with multi-disciplinary expert validation, ensures that tasks require visual grounding. We evaluate 19 leading MLLMs on ExpVid and find that while they excel at coarse-grained recognition, they struggle with disambiguating fine details, tracking state changes over time, and linking experimental procedures to scientific outcomes. Our results reveal a notable performance gap between proprietary and open-source models, particularly in high-order reasoning. ExpVid not only provides a diagnostic tool but also charts a roadmap for developing MLLMs capable of becoming trustworthy partners in scientific experimentation.