Decoding Scientific Experimental Images: The SPUR Benchmark for Perception, Understanding, and Reasoning

作者: Junpeng Ding, Zichen Tang, Haihong E, Mengyuan Ji, Yang Liu, Haolin Tian, Haiyang Sun, Pengqi Sun, Yang Xu, Yichen Liu, Haocheng Gao, Zijie Xi, Ruomeng Jiang, Peizhi Zhao, Rongjin Li, Yuanze Li, Jiacheng Liu, Zhongjun Yang, Jintong Chen, Siying Lin

分类: cs.CV, cs.CE

发布日期: 2026-04-30

备注: Accepted to ACL 2026 Main Conference

💡 一句话要点

提出SPUR基准，用于评估多模态大语言模型在科学实验图像理解和推理方面的能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 科学实验图像理解 多模态大语言模型 基准测试 AI for Science 细粒度感知 跨面板关系理解 专家级推理 问答系统

📋 核心要点

现有方法在理解科学实验图像，特别是细粒度感知和跨面板关系理解方面存在不足，难以达到专家水平。
SPUR基准通过构建包含细粒度标注和复杂关系的科学图像数据集，并设计相应的问答任务，来评估模型的能力。
实验结果表明，现有MLLM在SPUR基准上表现不佳，与专家水平存在显著差距，揭示了AI4S领域的一个关键挑战。

📝 摘要（中文）

本文介绍了一个全面的基准测试SPUR，用于评估科学实验图像的感知、理解和推理能力。SPUR包含4264个问答（QA）对，这些问答对来源于1084张专家精心挑选的图像。SPUR具有三个关键创新点：（1）面板级细粒度感知：从数值、形态和信息定位三个维度评估多模态大语言模型（MLLM）在六种细粒度面板类型上的视觉感知能力；（2）跨面板关系理解：利用平均每张样本包含14.3个面板的复杂图像，评估MLLM解读复杂跨面板关系的能力；（3）专家级推理：评估定性和定量推理能力，涵盖五个实验范式，以确定模型是否能像人类专家一样从证据中推断结论。对20个MLLM和4个多模态思维链（MCoT）方法的全面评估表明，当前模型远未达到科学图像解释的专家级要求，突显了AI for Science（AI4S）研究中的一个关键瓶颈。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLM）在理解和推理科学实验图像方面的不足。现有方法难以处理图像中细粒度的信息（例如数值、形态）以及跨面板之间的复杂关系，导致无法像人类专家一样准确地理解和解释实验结果。

核心思路：论文的核心思路是构建一个高质量的基准数据集SPUR，该数据集包含各种类型的科学实验图像，并设计了相应的问答任务，以全面评估MLLM在感知、理解和推理方面的能力。通过在SPUR上评估现有模型，可以发现其在科学图像理解方面的瓶颈，并为未来的研究提供方向。

技术框架：SPUR基准主要包含以下几个部分：1) 数据收集：收集了1084张专家精心挑选的科学实验图像。2) 数据标注：对图像进行细粒度的标注，包括面板类型、数值、形态和信息定位等。3) 问答任务设计：设计了4264个问答对，涵盖面板级细粒度感知、跨面板关系理解和专家级推理三个方面。4) 模型评估：使用20个MLLM和4个多模态思维链（MCoT）方法在SPUR上进行评估。

关键创新：SPUR基准的主要创新点在于：1) 面板级细粒度感知：关注图像中各个面板的细节信息，例如数值、形态和信息定位。2) 跨面板关系理解：评估模型理解图像中不同面板之间复杂关系的能力。3) 专家级推理：要求模型能够像人类专家一样从图像中推断出实验结论。

关键设计：SPUR基准的关键设计包括：1) 多样化的图像类型：涵盖各种类型的科学实验图像，例如曲线图、散点图、表格等。2) 细粒度的标注：对图像进行细粒度的标注，以支持面板级细粒度感知任务。3) 复杂的问答任务：设计了复杂的问答任务，以评估模型在跨面板关系理解和专家级推理方面的能力。

🖼️ 关键图片

📊 实验亮点

对20个MLLM和4个MCoT方法的评估表明，现有模型在SPUR基准上表现远低于专家水平，突显了科学图像理解的挑战。例如，在专家级推理任务上，模型的准确率显著低于人类专家，表明模型在理解复杂实验逻辑和推断实验结论方面存在明显不足。

🎯 应用场景

该研究成果可应用于AI for Science领域，帮助研究人员利用AI技术自动分析和理解科学实验数据，加速科学发现过程。例如，可以用于自动解读生物医学图像、材料科学图像等，辅助科学家进行实验设计和结果分析，提高科研效率。

📄 摘要（原文）

We introduce SPUR, a comprehensive benchmark for scientific experimental image perception, understanding, and reasoning, comprising 4,264 question-answering (QA) pairs derived from 1,084 expert-curated images. SPUR features three key innovations: (1) Panel-Level Fine-Grained Perception: evaluating the visual perception of multimodal large language models (MLLMs) across three dimensions (numerical, morphological, and information localization) on six fine-grained panel types; (2) Cross-Panel Relation Understanding: utilizing complex images with an average of 14.3 panels per sample to evaluate MLLMs' ability to decipher intricate cross-panel relations; (3) Expert-Level Reasoning: assessment of qualitative and quantitative reasoning across five experimental paradigms to determine if models can infer conclusions from evidence as human experts do. Comprehensive evaluation of 20 MLLMs and four multimodal Chain-of-Thought (MCoT) methods reveals that current models fall significantly short of the expert-level requirements for scientific image interpretation, underscoring a critical bottleneck in AI for Science (AI4S) research.

Decoding Scientific Experimental Images: The SPUR Benchmark for Perception, Understanding, and Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理