Information fusion strategy integrating pre-trained language model and contrastive learning for materials knowledge mining

📄 arXiv: 2506.12516v1 📥 PDF

作者: Yongqian Peng, Zhouran Zhang, Longhui Zhang, Fengyuan Zhao, Yahao Li, Yicong Ye, Shuxin Bai

分类: cond-mat.mtrl-sci, cs.LG

发布日期: 2025-06-14


💡 一句话要点

提出融合预训练语言模型与对比学习的信息融合策略,用于材料知识挖掘。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 材料知识挖掘 预训练语言模型 对比学习 信息融合 材料设计

📋 核心要点

  1. 传统材料设计方法难以量化加工条件和微观结构特征对材料性能的影响,导致复杂性能预测面临挑战。
  2. 论文提出一种融合MatSciBERT和对比学习的信息融合架构,从材料文献中提取隐式知识,结合定量物理描述符进行性能预测。
  3. 实验结果表明,该模型在钛合金和难熔多主元合金数据集上均取得了优异的性能,R2值分别达到0.849和0.680。

📝 摘要(中文)

机器学习彻底改变了材料设计,但由于加工条件和微观结构特征难以通过传统还原论方法量化,预测合金延展性等复杂性能仍然具有挑战性。本文提出了一种创新的信息融合架构,该架构将材料科学文献中的领域特定文本与定量物理描述符相结合,以克服这些限制。我们的框架采用MatSciBERT进行高级文本理解,并结合对比学习来自动提取关于加工参数和微观结构特征的隐式知识。通过严格的消融研究和对比实验,该模型表现出卓越的性能,在钛合金验证集和难熔多主元合金测试集上分别实现了0.849和0.680的决定系数(R2)值。这种系统方法为复杂材料系统中定量描述符不完整的性能预测提供了一个整体框架,并为知识引导的材料设计和信息驱动的材料发现奠定了基础。

🔬 方法详解

问题定义:现有材料设计方法在预测复杂材料性能时,面临着难以量化加工条件和微观结构特征的挑战。传统方法依赖于定量物理描述符,但这些描述符往往无法完整捕捉材料的全部信息,导致预测精度受限。因此,如何有效利用材料科学文献中蕴含的丰富知识,成为提升材料性能预测的关键问题。

核心思路:论文的核心思路是将材料科学文献中的文本信息与定量物理描述符相结合,通过信息融合的方式提升材料性能预测的准确性。具体而言,利用预训练语言模型MatSciBERT理解文本信息,并通过对比学习提取文本中关于加工参数和微观结构特征的隐式知识。这种方法能够弥补定量描述符的不足,从而更全面地描述材料的特性。

技术框架:该信息融合框架主要包含以下几个模块:1) 文本编码模块:使用MatSciBERT对材料科学文献进行编码,提取文本特征。2) 物理描述符模块:提取材料的定量物理描述符。3) 对比学习模块:通过对比学习,从文本特征中提取与材料性能相关的隐式知识。4) 融合模块:将文本特征、物理描述符和对比学习提取的知识进行融合。5) 预测模块:利用融合后的特征进行材料性能预测。

关键创新:该论文的关键创新在于将预训练语言模型MatSciBERT与对比学习相结合,用于材料知识挖掘。MatSciBERT能够有效理解材料科学领域的专业术语和知识,而对比学习能够从文本中提取隐式知识,从而弥补了传统方法中定量描述符的不足。此外,该框架还提出了一种新的信息融合策略,能够有效地将文本信息和物理描述符相结合。

关键设计:在对比学习模块中,论文采用了InfoNCE损失函数,用于最大化正样本之间的相似度,最小化负样本之间的相似度。在融合模块中,论文采用了注意力机制,用于自适应地调整不同特征的权重。此外,论文还对MatSciBERT进行了微调,使其更适应材料科学领域的任务。

📊 实验亮点

实验结果表明,该模型在钛合金验证集和难熔多主元合金测试集上均取得了优异的性能。在钛合金验证集上,该模型实现了0.849的R2值,相比于基线模型提升了显著。在难熔多主元合金测试集上,该模型实现了0.680的R2值,表明该模型具有良好的泛化能力。消融实验也验证了MatSciBERT和对比学习在提升模型性能中的作用。

🎯 应用场景

该研究成果可应用于材料设计、材料发现和材料性能预测等领域。通过结合材料科学文献中的知识和定量物理描述符,可以更准确地预测材料的性能,从而加速新材料的研发过程。此外,该方法还可以用于分析材料的加工条件和微观结构特征对性能的影响,为材料的优化设计提供指导。

📄 摘要(原文)

Machine learning has revolutionized materials design, yet predicting complex properties like alloy ductility remains challenging due to the influence of processing conditions and microstructural features that resist quantification through traditional reductionist approaches. Here, we present an innovative information fusion architecture that integrates domain-specific texts from materials science literature with quantitative physical descriptors to overcome these limitations. Our framework employs MatSciBERT for advanced textual comprehension and incorporates contrastive learning to automatically extract implicit knowledge regarding processing parameters and microstructural characteristics. Through rigorous ablation studies and comparative experiments, the model demonstrates superior performance, achieving coefficient of determination (R2) values of 0.849 and 0.680 on titanium alloy validation set and refractory multi-principal-element alloy test set. This systematic approach provides a holistic framework for property prediction in complex material systems where quantitative descriptors are incomplete and establishes a foundation for knowledge-guided materials design and informatics-driven materials discovery.