MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding
作者: Zekun Li, Xianjun Yang, Kyuri Choi, Wanrong Zhu, Ryan Hsieh, HyeonJung Kim, Jin Hyuk Lim, Sungyoung Ji, Byungju Lee, Xifeng Yan, Linda Ruth Petzold, Stephen D. Wilson, Woosang Lim, William Yang Wang
分类: cs.CL, cs.AI, cs.CV
发布日期: 2024-07-06 (更新: 2025-02-20)
备注: Code and data are available at https://github.com/Leezekun/MMSci
💡 一句话要点
MMSci:一个用于研究生级别多学科多模态科学理解的数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 科学图形理解 多模态学习 视觉语言模型 数据集构建 迁移学习
📋 核心要点
- 现有数据集主要集中于简单图表和有限科学领域,缺乏对复杂科学图形的理解能力。
- MMSci数据集包含来自多个科学领域的复杂可视化,旨在提升模型对科学图形的理解能力。
- 通过微调和持续预训练,模型在图形描述和多项选择任务上取得了显著的性能提升。
📝 摘要(中文)
本文提出了MMSci,一个综合性的数据集,旨在提升大型视觉语言模型在科学图形理解方面的能力。该数据集来源于《自然通讯》上涵盖72个科学领域的同行评审文章,包含了复杂的科学可视化,如示意图、显微图像和实验数据,这些都需要研究生级别的专业知识才能理解。研究者在两个基准任务(图形描述和多项选择)上评估了19个专有和开源模型,并进行了人类专家标注。分析表明,模型在这些任务中面临着巨大的挑战和性能差距。除了作为基准之外,该数据集还可作为大规模训练的宝贵资源。使用该数据集对Qwen2-VL-7B进行微调,在多项选择评估中取得了优于GPT-4o甚至人类专家的性能。此外,对交错的文章和图形数据进行持续预训练,显著提高了模型在材料科学下游任务中的性能。该数据集已发布,以支持进一步的研究。
🔬 方法详解
问题定义:现有数据集在科学图形理解方面存在局限性,无法满足大型视觉语言模型对复杂科学可视化理解的需求。现有方法难以处理来自不同科学领域、需要专业知识才能理解的图形,例如示意图、显微图像和实验数据。
核心思路:论文的核心思路是构建一个大规模、多学科、多模态的科学图形数据集,并利用该数据集对现有模型进行微调和预训练,从而提升模型对科学图形的理解能力。通过引入人类专家标注,可以更准确地评估模型的性能。
技术框架:整体框架包括数据集构建、模型评估和模型优化三个阶段。数据集构建阶段收集来自《自然通讯》的科学文章,并提取其中的图形和相关文本。模型评估阶段在图形描述和多项选择两个任务上评估现有模型,并与人类专家进行比较。模型优化阶段使用MMSci数据集对Qwen2-VL-7B进行微调和持续预训练。
关键创新:该论文的关键创新在于构建了一个大规模、多学科、多模态的科学图形数据集MMSci,该数据集涵盖了72个科学领域,包含了各种复杂的科学可视化。此外,论文还展示了通过微调和持续预训练,可以显著提升模型在科学图形理解任务上的性能。
关键设计:在模型优化阶段,论文使用了Qwen2-VL-7B模型,并采用了微调和持续预训练两种方法。微调阶段使用任务特定的数据对模型进行微调,以提升模型在特定任务上的性能。持续预训练阶段使用交错的文章和图形数据对模型进行预训练,以提升模型对科学知识的理解能力。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
使用MMSci数据集对Qwen2-VL-7B进行微调后,在多项选择评估中取得了优于GPT-4o甚至人类专家的性能。此外,对交错的文章和图形数据进行持续预训练,显著提高了模型在材料科学下游任务中的性能。这些结果表明,MMSci数据集对于提升模型在科学图形理解方面的能力具有重要价值。
🎯 应用场景
该研究成果可应用于构建AI驱动的科学助手,帮助科研人员快速理解科学文献中的复杂图形,加速科研进程。此外,该数据集也可用于开发更智能的教育工具,辅助学生学习科学知识。未来,该研究有望推动人工智能在科学领域的更广泛应用。
📄 摘要(原文)
Scientific figure interpretation is a crucial capability for AI-driven scientific assistants built on advanced Large Vision Language Models. However, current datasets and benchmarks primarily focus on simple charts or other relatively straightforward figures from limited science domains. To address this gap, we present a comprehensive dataset compiled from peer-reviewed Nature Communications articles covering 72 scientific fields, encompassing complex visualizations such as schematic diagrams, microscopic images, and experimental data which require graduate-level expertise to interpret. We evaluated 19 proprietary and open-source models on two benchmark tasks, figure captioning and multiple-choice, and conducted human expert annotation. Our analysis revealed significant task challenges and performance gaps among models. Beyond serving as a benchmark, this dataset serves as a valuable resource for large-scale training. Fine-tuning Qwen2-VL-7B with our task-specific data achieved better performance than GPT-4o and even human experts in multiple-choice evaluations. Furthermore, continuous pre-training on our interleaved article and figure data substantially enhanced the model's downstream task performance in materials science. We have released our dataset to support further research.