MaterialFigBENCH: benchmark dataset with figures for evaluating college-level materials science problem-solving abilities of multimodal large language models

作者: Michiko Yoshitake, Yuta Suzuki, Ryo Igarashi, Yoshitaka Ushiku, Keisuke Nagato

分类: cs.CL, cond-mat.mtrl-sci

发布日期: 2026-03-12

备注: 27 pages, 4 tables, 6 figures

💡 一句话要点

MaterialFigBENCH：用于评估多模态LLM材料科学问题解决能力的图表基准数据集

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 材料科学 多模态学习 大型语言模型 图表理解 基准数据集

📋 核心要点

现有基准测试主要依赖文本信息，缺乏对多模态LLM在材料科学领域图表理解能力的有效评估。
MaterialFigBench通过构建包含大量材料科学图表问题的数据集，为评估LLM的视觉推理能力提供了基础。
实验结果表明，现有LLM在视觉理解和定量解释材料科学图表方面存在不足，需要进一步提升。

📝 摘要（中文）

本文提出了MaterialFigBench，一个旨在评估多模态大型语言模型（LLM）解决大学水平材料科学问题的能力的基准数据集，这些问题需要准确地解释图表。与主要依赖文本表示的现有基准不同，MaterialFigBench侧重于那些相图、应力-应变曲线、阿伦尼乌斯图、衍射图和微观结构示意图等图表对于得出正确答案至关重要的问题。该数据集包含137个改编自标准材料科学教科书的自由回答问题，涵盖了晶体结构、机械性能、扩散、相图、相变和材料的电子性能等广泛主题。为了解决从图像中读取数值时不可避免的模糊性，在适当的情况下提供了专家定义的答案范围。我们评估了几种最先进的多模态LLM，包括通过OpenAI API访问的ChatGPT和GPT模型，并分析了它们在问题类别和模型版本中的性能。结果表明，尽管总体准确性随着模型更新而提高，但当前的LLM仍然难以进行真正的视觉理解和材料科学图表的定量解释。在许多情况下，正确的答案是通过依赖记忆的领域知识而不是通过阅读提供的图像来获得的。MaterialFigBench突出了视觉推理、数值精度和有效数字处理方面的持续弱点，同时也确定了性能有所提高的问题类型。该基准为推进材料科学中的多模态推理能力以及指导未来具有更强图表理解能力的LLM的开发提供了系统的和特定领域的基础。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型（LLM）在材料科学领域，特别是对包含图表的复杂问题进行理解和解答的难题。现有方法主要依赖文本信息，忽略了材料科学中大量存在的图表信息，导致LLM无法有效解决需要图表理解的问题。现有基准测试也缺乏对LLM视觉推理能力的针对性评估。

核心思路：论文的核心思路是构建一个专门针对材料科学图表理解的基准数据集，即MaterialFigBench。该数据集包含大量需要准确解读各种材料科学图表（如相图、应力-应变曲线等）才能解答的问题。通过在该数据集上评估LLM的性能，可以更准确地衡量其视觉推理和定量分析能力。

技术框架：MaterialFigBench数据集的构建流程主要包括以下几个阶段：1) 从标准材料科学教科书中选取问题；2) 对问题进行改编，使其更适合LLM的输入格式；3) 针对每个问题，提供专家定义的答案范围，以解决图像数值读取的模糊性；4) 将问题按照材料科学的不同主题进行分类，如晶体结构、机械性能等。然后，使用该数据集评估各种多模态LLM的性能。

关键创新：该论文的关键创新在于构建了一个专门针对材料科学图表理解的基准数据集。与现有基准测试相比，MaterialFigBench更加关注LLM的视觉推理能力，能够更准确地评估LLM在材料科学领域的应用潜力。此外，专家定义的答案范围也有效解决了图像数值读取的模糊性问题。

关键设计：MaterialFigBench数据集包含137个自由回答问题，涵盖了材料科学的多个主题。问题来源于标准材料科学教科书，保证了数据集的专业性和权威性。为了评估LLM的性能，论文采用了准确率作为评估指标，并对不同模型版本和问题类别进行了详细的分析。

📊 实验亮点

实验结果表明，尽管LLM的总体准确性随着模型更新而提高，但它们在视觉理解和定量解释材料科学图表方面仍然存在困难。许多情况下，模型依赖于记忆的领域知识而非图像信息来获得正确答案。MaterialFigBench揭示了LLM在视觉推理、数值精度和有效数字处理方面的弱点，同时也指出了性能有所提升的问题类型。

🎯 应用场景

MaterialFigBench可用于训练和评估多模态LLM在材料科学领域的应用，例如辅助材料设计、故障诊断和科学研究。该数据集能够促进开发更智能、更高效的材料科学工具，加速新材料的发现和应用，并为材料科学教育提供更有效的辅助手段。

📄 摘要（原文）

We present MaterialFigBench, a benchmark dataset designed to evaluate the ability of multimodal large language models (LLMs) to solve university-level materials science problems that require accurate interpretation of figures. Unlike existing benchmarks that primarily rely on textual representations, MaterialFigBench focuses on problems in which figures such as phase diagrams, stress-strain curves, Arrhenius plots, diffraction patterns, and microstructural schematics are indispensable for deriving correct answers. The dataset consists of 137 free-response problems adapted from standard materials science textbooks, covering a broad range of topics including crystal structures, mechanical properties, diffusion, phase diagrams, phase transformations, and electronic properties of materials. To address unavoidable ambiguity in reading numerical values from images, expert-defined answer ranges are provided where appropriate. We evaluate several state-of-the-art multimodal LLMs, including ChatGPT and GPT models accessed via OpenAI APIs, and analyze their performance across problem categories and model versions. The results reveal that, although overall accuracy improves with model updates, current LLMs still struggle with genuine visual understanding and quantitative interpretation of materials science figures. In many cases, correct answers are obtained by relying on memorized domain knowledge rather than by reading the provided images. MaterialFigBench highlights persistent weaknesses in visual reasoning, numerical precision, and significant-digit handling, while also identifying problem types where performance has improved. This benchmark provides a systematic and domain-specific foundation for advancing multimodal reasoning capabilities in materials science and for guiding the development of future LLMs with stronger figure-based understanding.

MaterialFigBENCH: benchmark dataset with figures for evaluating college-level materials science problem-solving abilities of multimodal large language models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理