Synergistic Fusion of Multi-Source Knowledge via Evidence Theory for High-Entropy Alloy Discovery

📄 arXiv: 2502.14631v1 📥 PDF

作者: Minh-Quyet Ha, Dinh-Khiet Le, Duc-Anh Dao, Tien-Sinh Vu, Duong-Nguyen Nguyen, Viet-Cuong Nguyen, Hiori Kino, Van-Nam Huynh, Hieu-Chi Dam

分类: cs.LG

发布日期: 2025-02-20

备注: 13 pages, 7 figures


💡 一句话要点

提出基于证据理论的多源知识融合框架,加速高熵合金发现。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 高熵合金发现 多源知识融合 证据理论 元素可替代性 大型语言模型 材料科学 相稳定性预测

📋 核心要点

  1. 高熵合金成分空间巨大,相形成机制复杂,难以高效发现具有理想性能的新型合金。
  2. 利用大型语言模型从文献中提取领域知识,结合计算材料数据集,显式考虑元素可替代性。
  3. 基于Dempster-Shafer理论融合多源证据,预测相稳定性,实验表明优于单源证据方法。

📝 摘要(中文)

由于成分空间巨大和复杂的相形成机制,发现具有理想性能的新型高熵合金(HEAs)极具挑战性。高效探索这一空间需要整合异构知识源的战略方法。本文提出了一种框架,该框架使用大型语言模型(LLMs)系统地结合从计算材料数据集中提取的知识与从科学文献中提取的领域知识。该方法的一个核心特征是显式考虑元素的可替代性,识别化学性质相似的元素,这些元素可以互换以潜在地稳定所需的HEAs。Dempster-Shafer理论是一种在不确定性下进行推理的数学框架,用于建模和组合基于来自多个来源的聚合证据的可替代性。该框架预测候选HEA成分的相稳定性,并在四元合金系统上进行了系统评估,在交叉验证实验中,与基线机器学习模型和依赖于单源证据的方法相比,表现出卓越的性能。通过利用多源知识,即使训练数据中缺少关键元素,该框架也能保持强大的预测能力,突显了其知识转移和外推的潜力。此外,该方法增强的可解释性提供了对控制HEA形成的基本因素的见解。总而言之,这项工作通过整合计算和文本知识源,为加速HEA发现提供了一种有希望的策略,从而能够以改进的泛化和可解释性高效探索广阔的成分空间。

🔬 方法详解

问题定义:论文旨在解决高熵合金(HEA)发现过程中,由于成分空间巨大和相形成机制复杂,导致难以高效找到具有理想性能的新型合金的问题。现有方法通常依赖单一数据来源或简单的机器学习模型,无法充分利用领域知识,泛化能力有限,且缺乏可解释性。

核心思路:论文的核心思路是融合来自计算材料数据集和科学文献的多源知识,并显式地考虑元素的可替代性。通过识别化学性质相似的元素,允许在HEA成分中进行替换,从而扩展搜索空间并提高发现新合金的可能性。Dempster-Shafer证据理论被用于处理和融合来自不同来源的不确定性信息,提高预测的鲁棒性。

技术框架:该框架包含以下主要模块:1) 数据收集与预处理:收集计算材料数据集和科学文献,并进行清洗和结构化处理。2) 知识提取:使用大型语言模型(LLMs)从文献中提取领域知识,例如元素之间的相似性和可替代性。3) 可替代性建模:基于提取的知识,建立元素可替代性的模型。4) 证据融合:使用Dempster-Shafer证据理论融合来自不同来源的证据,计算候选HEA成分的相稳定性。5) 预测与评估:预测HEA的相稳定性,并使用实验数据进行评估。

关键创新:该论文的关键创新在于:1) 多源知识融合:将计算材料数据和领域知识相结合,克服了单一数据来源的局限性。2) 元素可替代性建模:显式地考虑元素之间的相似性和可替代性,扩展了搜索空间。3) Dempster-Shafer证据理论的应用:使用证据理论处理不确定性信息,提高了预测的鲁棒性。

关键设计:论文的关键设计包括:1) 使用大型语言模型进行知识提取,需要仔细设计提示词和训练策略,以确保提取的知识准确可靠。2) Dempster-Shafer证据理论的应用需要定义合适的信任函数和组合规则,以有效地融合来自不同来源的证据。3) 实验评估需要选择合适的基线模型和评价指标,以全面评估该框架的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在四元合金系统上的交叉验证实验表明,该框架的性能优于基线机器学习模型和依赖于单源证据的方法。即使训练数据中缺少关键元素,该框架也能保持强大的预测能力,体现了其知识转移和外推的潜力。此外,该方法增强了可解释性,有助于理解HEA形成的基本因素。

🎯 应用场景

该研究成果可应用于材料科学领域,加速高熵合金的发现和设计。通过整合计算数据和领域知识,可以更高效地探索成分空间,预测合金的性能,并为实验研究提供指导。该方法还可推广到其他材料的发现和优化,例如金属间化合物、陶瓷材料等,具有广阔的应用前景。

📄 摘要(原文)

Discovering novel high-entropy alloys (HEAs) with desirable properties is challenging due to the vast compositional space and complex phase formation mechanisms. Efficient exploration of this space requires a strategic approach that integrates heterogeneous knowledge sources. Here, we propose a framework that systematically combines knowledge extracted from computational material datasets with domain knowledge distilled from scientific literature using large language models (LLMs). A central feature of this approach is the explicit consideration of element substitutability, identifying chemically similar elements that can be interchanged to potentially stabilize desired HEAs. Dempster-Shafer theory, a mathematical framework for reasoning under uncertainty, is employed to model and combine substitutabilities based on aggregated evidence from multiple sources. The framework predicts the phase stability of candidate HEA compositions and is systematically evaluated on both quaternary alloy systems, demonstrating superior performance compared to baseline machine learning models and methods reliant on single-source evidence in cross-validation experiments. By leveraging multi-source knowledge, the framework retains robust predictive power even when key elements are absent from the training data, underscoring its potential for knowledge transfer and extrapolation. Furthermore, the enhanced interpretability of the methodology offers insights into the fundamental factors governing HEA formation. Overall, this work provides a promising strategy for accelerating HEA discovery by integrating computational and textual knowledge sources, enabling efficient exploration of vast compositional spaces with improved generalization and interpretability.