Bridging Text and Crystal Structures: Literature-driven Contrastive Learning for Materials Science

📄 arXiv: 2501.12919v2 📥 PDF

作者: Yuta Suzuki, Tatsunori Taniai, Ryo Igarashi, Kotaro Saito, Naoya Chiba, Yoshitaka Ushiku, Kanta Ono

分类: cs.LG, cond-mat.mtrl-sci

发布日期: 2025-01-22 (更新: 2025-06-19)

备注: 19 pages, 8 figures. Accepted to Machine Learning: Science and Technology (2025). Preliminary versions appeared at NeurIPS 2024 AI4Mat and CVPR 2025 MM4Mat workshops

DOI: 10.1088/2632-2153/ade58c


💡 一句话要点

提出对比语言-结构预训练(CLaSP),用于材料科学中基于文本的晶体结构检索。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 材料科学 晶体结构 对比学习 跨模态学习 文本检索 材料信息学 自然语言处理

📋 核心要点

  1. 材料科学中,理解结构-性质关系至关重要,但现有基于抽象特征的晶体结构嵌入方法缺乏人机交互性。
  2. CLaSP通过对比学习,构建晶体结构和文本的跨模态嵌入空间,实现基于文本描述的材料检索。
  3. CLaSP利用大量已发表的晶体结构数据进行训练,实验证明其在文本检索晶体结构任务中的有效性。

📝 摘要(中文)

理解结构-性质关系是材料发现和开发中至关重要但具有挑战性的一个方面。为了促进这一过程,最近的材料信息学研究试图构建晶体结构的潜在嵌入空间,以捕捉它们在性质和功能方面的相似性。然而,基于抽象特征的嵌入空间对人类不够友好,并且阻碍了对广阔材料空间的直观和高效探索。本文介绍了一种对比语言-结构预训练(CLaSP)的学习范式,用于构建晶体结构和文本之间的跨模态嵌入空间。CLaSP旨在实现以下材料嵌入:1)捕捉晶体结构之间与性质和功能相关的相似性;2)允许通过用户提供的描述文本作为查询来直观地检索材料。为了弥补缺乏足够的将晶体结构与文本描述联系起来的数据集,CLaSP利用超过40万个已发表的晶体结构及其相应的出版记录(包括论文标题和摘要)的数据集进行训练。我们通过基于文本的晶体结构筛选和嵌入空间可视化证明了CLaSP的有效性。

🔬 方法详解

问题定义:材料科学领域需要理解晶体结构与材料性质之间的关系,以便发现和开发新材料。现有的晶体结构嵌入方法通常基于抽象的特征,这使得研究人员难以直观地理解和探索材料空间。缺乏有效的文本检索晶体结构的方法,阻碍了科研人员利用文献知识进行材料发现。

核心思路:CLaSP的核心思路是通过对比学习,将晶体结构和描述它们的文本信息嵌入到同一个语义空间中。这样,用户就可以使用自然语言描述来检索具有特定性质或功能的晶体结构。这种跨模态嵌入使得材料的检索和探索更加直观和高效。

技术框架:CLaSP的整体框架包括以下几个主要步骤:1) 数据收集:收集包含晶体结构及其对应文本描述(如论文标题和摘要)的数据集。2) 特征提取:使用预训练的语言模型(如BERT)提取文本特征,并使用图神经网络(GNN)提取晶体结构特征。3) 对比学习:通过对比学习的目标函数,训练模型将相似的晶体结构和文本嵌入到相近的位置,而将不相似的样本推开。4) 嵌入空间构建:利用训练好的模型,将所有晶体结构和文本嵌入到统一的嵌入空间中。

关键创新:CLaSP的关键创新在于它建立了一个晶体结构和文本之间的跨模态嵌入空间。与传统的基于特征的嵌入方法不同,CLaSP允许用户使用自然语言描述来检索晶体结构,从而实现了更加直观和高效的材料探索。此外,CLaSP利用大量的文献数据进行训练,克服了缺乏标注数据的难题。

关键设计:CLaSP的关键设计包括:1) 使用对比学习的InfoNCE损失函数,鼓励相似样本的嵌入向量靠近,不相似样本的嵌入向量远离。2) 使用预训练的语言模型和图神经网络来提取文本和晶体结构的特征,充分利用了现有的知识。3) 通过数据增强技术,增加训练样本的多样性,提高模型的泛化能力。具体的参数设置和网络结构选择可能需要根据实际数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CLaSP在文本检索晶体结构任务中表现出色,能够根据文本描述准确地检索到相关的晶体结构。实验结果表明,CLaSP显著优于传统的基于特征的检索方法。通过嵌入空间可视化,可以清晰地观察到CLaSP能够将具有相似性质的晶体结构和描述它们的文本嵌入到相近的位置。

🎯 应用场景

CLaSP可应用于材料发现、材料筛选和材料设计等领域。研究人员可以使用自然语言描述快速检索具有特定性质的晶体结构,加速新材料的发现过程。此外,CLaSP还可以用于构建材料知识图谱,促进材料科学领域的知识共享和协同研究。未来,CLaSP有望成为材料科学研究的重要工具。

📄 摘要(原文)

Understanding structure-property relationships is an essential yet challenging aspect of materials discovery and development. To facilitate this process, recent studies in materials informatics have sought latent embedding spaces of crystal structures to capture their similarities based on properties and functionalities. However, abstract feature-based embedding spaces are human-unfriendly and prevent intuitive and efficient exploration of the vast materials space. Here we introduce Contrastive Language--Structure Pre-training (CLaSP), a learning paradigm for constructing crossmodal embedding spaces between crystal structures and texts. CLaSP aims to achieve material embeddings that 1) capture property- and functionality-related similarities between crystal structures and 2) allow intuitive retrieval of materials via user-provided description texts as queries. To compensate for the lack of sufficient datasets linking crystal structures with textual descriptions, CLaSP leverages a dataset of over 400,000 published crystal structures and corresponding publication records, including paper titles and abstracts, for training. We demonstrate the effectiveness of CLaSP through text-based crystal structure screening and embedding space visualization.