OmniMatBench: A Human-Calibrated Multimodal Reasoning Benchmark Across 19 Materials Science Subfields

📄 arXiv: 2605.29833v2 📥 PDF

作者: Wanhao Liu, Jiaqing Xie, Qian Tan, Weida Wang, Jue Wang, Ran Sun, Zhuo Yang, Wanli Ouyang, Lei Bai, Tianfan Fu, Lu Chen, Xin Chen, Yuqiang Li

分类: cs.AI

发布日期: 2026-05-28 (更新: 2026-05-29)

备注: 22 Pages


💡 一句话要点

提出OmniMatBench以解决材料科学多模态推理不足问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 材料科学 基准测试 人工智能 知识问答 专家策划 模型评估

📋 核心要点

  1. 现有的材料科学基准主要集中在特定任务上,缺乏对全面推理过程的关注,导致推理能力不足。
  2. OmniMatBench通过提供3171个多模态问答和计算问题,填补了材料科学推理的空白,涵盖多个子领域。
  3. 实验结果显示,当前最佳模型在材料科学推理任务中的表现仍然有限,得分仅为0.372,表明存在显著的改进空间。

📝 摘要(中文)

随着多模态语言模型在科学研究中的重要性日益增加,材料科学因其跨学科和应用驱动的特性成为关键的测试平台。然而,现有的材料基准主要集中在属性预测、知识问答或特征理解上,缺乏对材料知识到应用的全面推理过程的探索。为填补这一空白,本文提出了OmniMatBench,这是一个人类校准的材料科学多模态推理基准,包含3171个专家策划的问答和计算问题,涵盖19个材料科学子领域。通过评估13个开源和闭源的多模态语言模型,发现最佳模型的整体得分仅为0.372,揭示了当前材料科学推理的显著差距。

🔬 方法详解

问题定义:本文旨在解决材料科学领域中多模态推理能力不足的问题。现有方法主要集中在特定的属性预测或知识问答,未能全面覆盖从材料知识到应用的推理过程。

核心思路:论文提出OmniMatBench基准,包含多种材料科学问题,旨在评估和提升多模态语言模型在材料科学领域的推理能力。通过专家策划的问题,确保了基准的专业性和实用性。

技术框架:OmniMatBench的整体架构包括问题收集、专家审核、模型评估和结果分析四个主要模块。问题涵盖基础材料知识、结构与工程材料、材料加工与制造,以及功能与应用材料。

关键创新:最重要的创新点在于构建了一个全面的多模态推理基准,填补了现有材料科学研究中的推理空白,与传统的单一任务基准相比,提供了更广泛的评估视角。

关键设计:在设计过程中,采用了专家审核机制确保问题的质量,设置了多样化的任务类型,并在评估中引入了固定的推理启发式方法,以便更好地分析模型的表现。具体的参数设置和损失函数设计尚未详细披露。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,评估的13个多模态语言模型中,最佳模型的整体得分仅为0.372,表明当前模型在材料科学推理任务中的表现仍有显著提升空间。不同子领域的表现差异明显,反映出材料知识的分布不均和推理能力的局限性。

🎯 应用场景

OmniMatBench的研究成果具有广泛的应用潜力,特别是在材料科学研究中,可以作为评估和提升多模态语言模型推理能力的标准工具。未来,随着AI助手在科学研究中的普及,该基准将为材料科学领域的智能化研究提供重要支持。

📄 摘要(原文)

As multimodal language models play an increasingly important role in scientific research, materials science offers a critical testbed due to its interdisciplinary, multimodal, and application-driven nature. However, existing materials benchmarks mainly focus on property prediction, knowledge QA, or characterization understanding, leaving the broader reasoning process from materials knowledge to application underexplored. To fill this gap, we present OmniMatBench, a human-calibrated multimodal reasoning benchmark for materials science. OmniMatBench contains 3,171 expert-curated QA and calculation problems across 19 materials-science subfields, spanning fundamental materials knowledge, structural and engineering materials, materials processing and manufacturing, and functional and applied materials. We evaluate 13 open-source and closed-source MLLMs and find that the best model achieves only a 0.372 overall score, revealing a substantial gap in current materials-science reasoning. Further analysis shows strong variation across subfields, fixed reasoning heuristics, uneven materials knowledge, and limited high-level knowledge application under formula-, retrieval-, and code-assisted settings. OmniMatBench provides crucial insights into the capabilities and limitations of current MLLMs and establishes a foundation for reliable AI assistants in materials-science research.