Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers

📄 arXiv: 2507.10787v1 📥 PDF

作者: Yilun Zhao, Chengye Wang, Chuhan Li, Arman Cohan

分类: cs.CL, cs.CV

发布日期: 2025-07-14

备注: ACL 2025 Findings


💡 一句话要点

提出MISS-QA基准,评估多模态模型理解科学论文示意图的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 科学文献理解 示意图理解 视觉问答 基准数据集

📋 核心要点

  1. 现有模型在理解科学文献中的复杂示意图方面存在不足,尤其是在结合上下文进行信息检索时。
  2. 论文构建了MISS-QA基准,旨在系统评估多模态模型在理解科学论文示意图并回答相关问题方面的能力。
  3. 实验结果表明,即使是先进的多模态模型在MISS-QA基准上与人类专家相比仍有较大差距,揭示了模型在科学文献理解方面的局限性。

📝 摘要(中文)

本文提出了MISS-QA,这是首个专门用于评估模型理解科学文献中示意图能力的基准。MISS-QA包含1500个由专家标注的示例,涵盖465篇科学论文。该基准测试要求模型解释示意图(通常用于概述研究)并回答基于论文上下文的信息检索问题。我们评估了18个前沿多模态基础模型,包括o4-mini、Gemini-2.5-Flash和Qwen2.5-VL。结果表明,这些模型在MISS-QA上的表现与人类专家之间存在显著差距。我们对模型在无法回答问题上的表现分析以及详细的错误分析,进一步突出了当前模型的优势和局限性,为提升模型理解多模态科学文献的能力提供了关键见解。

🔬 方法详解

问题定义:现有方法难以有效理解科学论文中复杂的示意图,特别是当需要结合论文的整体上下文来回答信息检索问题时。这阻碍了AI在科学研究领域的应用,例如自动文献综述和科学知识发现。现有模型缺乏对科学图表的细粒度理解和推理能力。

核心思路:论文的核心思路是构建一个高质量的基准数据集,用于系统地评估多模态模型在理解科学论文示意图方面的能力。通过分析模型在基准上的表现,可以识别模型的优势和不足,从而指导模型改进。

技术框架:MISS-QA基准包含以下几个关键组成部分:1) 从科学论文中提取包含示意图的段落;2) 由专家标注与示意图相关的、需要结合论文上下文才能回答的信息检索问题;3) 提供正确答案。整个流程旨在模拟人类科学家阅读论文并理解示意图的过程。

关键创新:MISS-QA是首个专门针对科学论文示意图理解的基准数据集。与现有通用视觉问答数据集不同,MISS-QA侧重于科学领域的特定知识和推理能力,更具挑战性。此外,该基准强调模型对示意图和论文上下文的联合理解。

关键设计:MISS-QA数据集包含1500个问答对,覆盖465篇科学论文。问题类型多样,包括描述性问题、比较性问题和推理问题。数据集还包含一定比例的无法回答的问题,以评估模型的鲁棒性。评估指标包括准确率和F1值等。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,即使是目前最先进的多模态基础模型,如Gemini-2.5-Flash和Qwen2.5-VL,在MISS-QA基准上的表现也远低于人类专家。例如,最佳模型的准确率仅为未知百分比,与人类专家相比存在显著差距。错误分析表明,模型在理解复杂图表结构、进行逻辑推理和结合上下文信息方面存在不足。

🎯 应用场景

该研究成果可应用于开发智能科研助手,帮助研究人员快速理解科学文献、提取关键信息、进行文献综述等。此外,该基准数据集可以促进多模态模型在科学领域的应用,例如自动生成研究报告、辅助科学发现等,具有重要的学术价值和实际应用前景。

📄 摘要(原文)

This paper introduces MISS-QA, the first benchmark specifically designed to evaluate the ability of models to interpret schematic diagrams within scientific literature. MISS-QA comprises 1,500 expert-annotated examples over 465 scientific papers. In this benchmark, models are tasked with interpreting schematic diagrams that illustrate research overviews and answering corresponding information-seeking questions based on the broader context of the paper. We assess the performance of 18 frontier multimodal foundation models, including o4-mini, Gemini-2.5-Flash, and Qwen2.5-VL. We reveal a significant performance gap between these models and human experts on MISS-QA. Our analysis of model performance on unanswerable questions and our detailed error analysis further highlight the strengths and limitations of current models, offering key insights to enhance models in comprehending multimodal scientific literature.