Publishing FAIR and Machine-actionable Reviews in Materials Science: The Case for Symbolic Knowledge in Neuro-symbolic Artificial Intelligence

📄 arXiv: 2601.05051v1 📥 PDF

作者: Jennifer D'Souza, Soren Auer, Eleni Poupaki, Alex Watkins, Anjana Devi, Riikka L. Puurunen, Bora Karasulu, Adrie Mackus, Erwin Kessels

分类: cs.AI, cs.CL, cs.DL, cs.IT

发布日期: 2026-01-08

备注: 35 pages, 11 figures


💡 一句话要点

在材料科学中发布FAIR和机器可操作的评论:神经符号人工智能中符号知识的案例

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 材料科学 知识图谱 FAIR原则 神经符号人工智能 原子层沉积 开放研究知识图 机器可操作 符号查询

📋 核心要点

  1. 材料科学的综述文献蕴含大量知识,但传统存储方式不利于机器理解和自动化知识发现。
  2. 论文提出将综述表格转化为FAIR且机器可操作的数据,存储于开放研究知识图(ORKG)中,实现结构化知识表示。
  3. 对比了基于ORKG的符号查询和基于大型语言模型的查询,强调符号知识在材料科学神经符号AI中的重要性。

📝 摘要(中文)

科学评论是材料科学中知识整合的核心,但其关键见解仍被锁定在叙述性文本和静态PDF表格中,限制了人类和机器的重用。本文提出了一个原子层沉积和刻蚀(ALD/E)的案例研究,我们在开放研究知识图(ORKG)中发布评论表格,作为FAIR的、机器可操作的比较,将其转化为结构化的、可查询的知识。在此基础上,我们将基于ORKG的符号查询与基于大型语言模型的查询进行了对比,并认为在材料科学中,一个经过精心策划的符号层应该仍然是可靠的神经符号人工智能的支柱,大型语言模型作为互补的、符号接地的接口,而不是独立的真理来源。

🔬 方法详解

问题定义:材料科学领域的综述文章通常以叙述性文本和静态PDF表格形式存在,这使得关键信息难以被机器解析和利用。现有的知识整合方式缺乏结构化和机器可操作性,阻碍了自动化知识发现和推理。因此,如何将综述中的知识转化为机器可理解和可重用的形式是一个关键问题。

核心思路:论文的核心思路是将材料科学综述中的表格数据转化为FAIR(Findable, Accessible, Interoperable, Reusable)原则的数据,并存储在开放研究知识图(ORKG)中。通过将非结构化的文本信息转化为结构化的知识图谱,使得机器能够更容易地理解和利用这些知识。这种方法旨在提高知识的可发现性、可访问性、互操作性和可重用性。

技术框架:该方法主要包含以下几个阶段:1) 从ALD/E领域的综述文章中提取表格数据;2) 将提取的数据转化为符合FAIR原则的格式;3) 将转化后的数据存储到ORKG中,构建知识图谱;4) 使用符号查询语言(如SPARQL)对ORKG进行查询,检索相关知识;5) 对比基于ORKG的符号查询和基于大型语言模型的查询结果,评估两种方法的优劣。

关键创新:该论文的关键创新在于将FAIR原则应用于材料科学综述数据的处理,并将其与知识图谱技术相结合。通过构建机器可操作的知识图谱,实现了对材料科学知识的结构化表示和高效查询。此外,论文还强调了符号知识在神经符号人工智能中的重要性,认为符号层应该作为可靠AI的支柱。

关键设计:论文中没有详细描述具体的参数设置、损失函数或网络结构,因为其重点在于知识表示和查询方法,而非机器学习模型的训练。关键设计在于如何将表格数据映射到知识图谱中的实体和关系,以及如何设计有效的符号查询语句来检索所需知识。ORKG作为知识存储和查询的平台,其自身的架构和查询语言是关键的技术细节。

📊 实验亮点

论文通过ALD/E案例研究展示了将综述表格转化为FAIR数据并存储在ORKG中的可行性。对比了基于ORKG的符号查询和基于大型语言模型的查询,表明在特定领域,符号查询能够提供更可靠和准确的结果。虽然没有给出具体的性能数据,但强调了符号知识在构建可靠神经符号AI系统中的重要性。

🎯 应用场景

该研究成果可应用于材料科学领域的知识发现、材料设计和工艺优化。通过构建机器可操作的知识图谱,研究人员可以更高效地检索和利用已有的研究成果,加速新材料的研发过程。此外,该方法还可以推广到其他科学领域,促进跨学科的知识整合和创新。

📄 摘要(原文)

Scientific reviews are central to knowledge integration in materials science, yet their key insights remain locked in narrative text and static PDF tables, limiting reuse by humans and machines alike. This article presents a case study in atomic layer deposition and etching (ALD/E) where we publish review tables as FAIR, machine-actionable comparisons in the Open Research Knowledge Graph (ORKG), turning them into structured, queryable knowledge. Building on this, we contrast symbolic querying over ORKG with large language model-based querying, and argue that a curated symbolic layer should remain the backbone of reliable neurosymbolic AI in materials science, with LLMs serving as complementary, symbolically grounded interfaces rather than standalone sources of truth.