SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation
作者: Jonathan Roberts, Kai Han, Neil Houlsby, Samuel Albanie
分类: cs.CV
发布日期: 2024-05-14 (更新: 2024-12-05)
备注: Accepted at NeurIPS 2024 (Datasets and Benchmarks Track)
💡 一句话要点
SciFIBench:用于科学图表理解的大型多模态模型评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 科学图表理解 多模态模型 评测基准 对抗过滤 人工智能 科学研究 问答系统
📋 核心要点
- 现有大型多模态模型在科学图表理解方面能力未充分评估,缺乏专门的评测基准。
- SciFIBench通过从arXiv论文中提取图表和标题,构建包含2000个问题的科学图表理解基准。
- 实验表明,SciFIBench对现有LMMs构成挑战,并可用于评估模型的对齐性和推理忠实性。
📝 摘要(中文)
大型多模态模型(LMMs)已在多个任务和领域中展现出灵活性和泛化能力。尽管它们在辅助科学研究方面具有巨大潜力,但其在该领域的能力尚未得到充分表征。理解和解释科学图表是科学研究的关键环节,图表是复杂信息的丰富且压缩的来源。本文提出了SciFIBench,一个科学图表理解基准,包含2000个问题,分为8个类别下的两个任务。这些问题来源于arXiv论文的图表和标题,使用对抗过滤来寻找困难负样本,并进行人工验证以保证质量。我们在SciFIBench上评估了28个LMMs,发现这是一个具有挑战性的基准。最后,我们研究了LMMs在我们基准的增强问题集上的对齐性和推理忠实性。我们发布SciFIBench以鼓励该领域的进展。
🔬 方法详解
问题定义:论文旨在解决大型多模态模型(LMMs)在科学图表理解方面的能力评估问题。现有方法缺乏专门针对科学图表的评测基准,难以准确衡量LMMs在科学领域的应用潜力。现有方法的痛点在于缺乏高质量、多样化的科学图表数据集,以及针对图表理解的细粒度评估指标。
核心思路:论文的核心思路是构建一个高质量的科学图表理解基准SciFIBench,该基准包含来自arXiv论文的图表和标题,并设计了针对图表理解的问答任务。通过对抗过滤和人工验证,确保基准的难度和质量,从而更准确地评估LMMs在科学领域的图表理解能力。
技术框架:SciFIBench的构建流程主要包括以下几个阶段:1) 数据收集:从arXiv论文中提取图表和标题;2) 问题生成:基于图表和标题生成问答对;3) 对抗过滤:使用对抗方法筛选出困难负样本;4) 人工验证:对问答对进行人工审核,确保质量;5) 基准评估:使用SciFIBench评估LMMs的性能。
关键创新:SciFIBench的关键创新在于:1) 专门针对科学图表理解任务构建,填补了现有基准的空白;2) 采用对抗过滤方法,提高了基准的难度和区分度;3) 进行人工验证,保证了基准的质量和可靠性。与现有方法相比,SciFIBench更能够准确评估LMMs在科学领域的图表理解能力。
关键设计:SciFIBench包含两个任务:图表分类和问答。问题类型包括描述性问题、比较性问题和推理问题。对抗过滤使用预训练的LMM生成负样本,并选择模型难以区分的负样本。人工验证由领域专家进行,确保问题的正确性和相关性。基准评估使用准确率等指标。
🖼️ 关键图片
📊 实验亮点
在SciFIBench上评估了28个LMMs,结果表明现有LMMs在科学图表理解方面仍面临挑战,最高准确率仅为未知%。通过对增强问题集的分析,发现LMMs在对齐性和推理忠实性方面存在不足。SciFIBench的发布将促进该领域的研究进展。
🎯 应用场景
SciFIBench可用于评估和提升LMMs在科学领域的应用能力,例如辅助科研人员快速理解文献图表、自动生成图表摘要、以及构建智能科研助手。该研究有助于推动人工智能在科学研究中的应用,提高科研效率和创新能力,并促进跨学科的知识交流。
📄 摘要(原文)
Large multimodal models (LMMs) have proven flexible and generalisable across many tasks and fields. Although they have strong potential to aid scientific research, their capabilities in this domain are not well characterised. A key aspect of scientific research is the ability to understand and interpret figures, which serve as a rich, compressed source of complex information. In this work, we present SciFIBench, a scientific figure interpretation benchmark consisting of 2000 questions split between two tasks across 8 categories. The questions are curated from arXiv paper figures and captions, using adversarial filtering to find hard negatives and human verification for quality control. We evaluate 28 LMMs on SciFIBench, finding it to be a challenging benchmark. Finally, we investigate the alignment and reasoning faithfulness of the LMMs on augmented question sets from our benchmark. We release SciFIBench to encourage progress in this domain.