LeMat-Synth: a multi-modal toolbox to curate broad synthesis procedure databases from scientific literature

📄 arXiv: 2510.26824v1 📥 PDF

作者: Magdalena Lederbauer, Siddharth Betala, Xiyao Li, Ayush Jain, Amine Sehaba, Georgia Channing, Grégoire Germain, Anamaria Leonescu, Faris Flaifil, Alfonso Amayuelas, Alexandre Nozadze, Stefan P. Schmid, Mohd Zaki, Sudheesh Kumar Ethirajan, Elton Pan, Mathilde Franckel, Alexandre Duval, N. M. Anoop Krishnan, Samuel P. Gleason

分类: cs.DL, cs.AI, cs.IR

发布日期: 2025-10-28

备注: 29 pages, 13 figures, 6 tables


💡 一句话要点

LeMat-Synth:利用多模态工具箱从科学文献中提取合成流程数据库。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 材料合成 文献挖掘 大型语言模型 视觉语言模型 知识图谱 多模态学习 自动化研究

📋 核心要点

  1. 材料合成流程知识分散且非结构化,难以系统分析和利用,阻碍了材料发现。
  2. LeMat-Synth工具箱利用LLM和VLM从文献中自动提取合成流程,并按材料科学本体进行结构化。
  3. 该工具箱构建了包含8.1万篇论文的数据集,并开源了模块化软件库,支持社区扩展。

📝 摘要(中文)

合成流程的开发是材料发现中的一个根本挑战,程序知识分散在数十年的科学文献中,以非结构化格式存在,难以进行系统分析。本文提出了一个多模态工具箱,它利用大型语言模型(LLM)和视觉语言模型(VLM)来自动提取和组织材料科学出版物中的合成流程和性能数据,涵盖文本和图表。我们整理了8.1万篇开放获取论文,生成了LeMat-Synth(v 1.0):一个包含35种合成方法和16种材料类别的合成流程数据集,并根据材料科学的特定本体进行结构化。通过专家注释和可扩展的LLM-as-a-judge框架相结合,在2.5k个合成流程的子集上严格评估了提取质量。除了数据集之外,我们还发布了一个模块化的开源软件库,旨在支持社区驱动的扩展到新的语料库和合成领域。总而言之,这项工作提供了一个可扩展的基础设施,将非结构化文献转换为机器可读的信息。这为合成流程的预测建模以及合成-结构-性质关系的建模奠定了基础。

🔬 方法详解

问题定义:材料科学领域的合成流程知识大量存在于科学文献中,但这些信息通常以非结构化的文本和图像形式呈现,难以被机器理解和利用。现有的方法难以有效地从海量文献中提取、组织和结构化这些合成流程信息,从而阻碍了材料发现的进程。

核心思路:LeMat-Synth的核心思路是利用大型语言模型(LLM)和视觉语言模型(VLM)的强大能力,自动从科学文献中提取合成流程信息,并将其结构化存储。通过多模态信息融合,可以更全面地理解合成流程,克服了传统方法仅依赖文本信息的局限性。

技术框架:LeMat-Synth工具箱包含以下主要模块:1) 文献收集模块:收集材料科学领域的开放获取论文。2) 信息提取模块:利用LLM和VLM从文本和图像中提取合成流程信息,例如反应物、溶剂、温度、时间等。3) 知识图谱构建模块:根据材料科学的特定本体,将提取的信息结构化存储,构建合成流程知识图谱。4) 评估模块:通过专家标注和LLM-as-a-judge框架,评估信息提取的质量。5) 开源软件库:提供模块化的开源代码,方便用户扩展和定制。

关键创新:LeMat-Synth的关键创新在于:1) 多模态信息提取:同时利用LLM和VLM,从文本和图像中提取合成流程信息,提高了信息提取的全面性和准确性。2) LLM-as-a-judge框架:利用LLM自动评估信息提取的质量,降低了人工标注的成本。3) 模块化开源设计:方便用户扩展和定制,促进了社区合作。

关键设计:LeMat-Synth使用了预训练的LLM和VLM模型,并针对材料科学领域的合成流程信息进行了微调。在信息提取过程中,采用了多种技术,例如命名实体识别、关系抽取、图像描述等。LLM-as-a-judge框架使用了prompt engineering技术,设计了合适的prompt,引导LLM进行评估。开源软件库采用了模块化设计,方便用户根据自己的需求选择和组合不同的模块。

🖼️ 关键图片

img_0

📊 实验亮点

LeMat-Synth工具箱构建了一个包含8.1万篇论文的合成流程数据集LeMat-Synth (v 1.0),涵盖35种合成方法和16种材料类别。在2.5k个合成流程的子集上,通过专家注释和LLM-as-a-judge框架评估了提取质量,结果表明该工具箱具有较高的信息提取准确率。

🎯 应用场景

LeMat-Synth可应用于材料科学领域的自动化研究,加速新材料的发现和优化。它可以帮助研究人员快速了解现有合成方法,预测合成结果,并设计新的合成路线。此外,该工具箱还可以用于构建材料科学知识图谱,为材料设计和性能预测提供数据支持。

📄 摘要(原文)

The development of synthesis procedures remains a fundamental challenge in materials discovery, with procedural knowledge scattered across decades of scientific literature in unstructured formats that are challenging for systematic analysis. In this paper, we propose a multi-modal toolbox that employs large language models (LLMs) and vision language models (VLMs) to automatically extract and organize synthesis procedures and performance data from materials science publications, covering text and figures. We curated 81k open-access papers, yielding LeMat-Synth (v 1.0): a dataset containing synthesis procedures spanning 35 synthesis methods and 16 material classes, structured according to an ontology specific to materials science. The extraction quality is rigorously evaluated on a subset of 2.5k synthesis procedures through a combination of expert annotations and a scalable LLM-as-a-judge framework. Beyond the dataset, we release a modular, open-source software library designed to support community-driven extension to new corpora and synthesis domains. Altogether, this work provides an extensible infrastructure to transform unstructured literature into machine-readable information. This lays the groundwork for predictive modeling of synthesis procedures as well as modeling synthesis--structure--property relationships.