Siamese Foundation Models for Crystal Structure Prediction

作者: Liming Wu, Wenbing Huang, Rui Jiao, Jianxing Huang, Liwei Liu, Yipeng Zhou, Hao Sun, Yang Liu, Fuchun Sun, Yuxiang Ren, Jirong Wen

分类: cond-mat.mtrl-sci, cs.AI

发布日期: 2025-03-13

💡 一句话要点

提出Siamese结构的晶体结构预测基础模型DAO，显著提升晶体材料发现效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 晶体结构预测 基础模型 Siamese网络 材料发现 生成模型 能量预测 预训练-微调

📋 核心要点

晶体结构预测（CSP）是新材料发现的关键，但由于晶体结构的复杂性，现有方法效果不佳。
论文提出Siamese基础模型DAO，包含结构生成模型DAO-G和能量预测模型DAO-P，实现更精确的晶体结构预测。
实验表明，DAO-G在晶体结构预测任务上显著优于现有方法，并在真实超导体材料上实现了精确的临界温度预测。

📝 摘要（中文）

晶体结构预测（CSP）旨在从成分生成稳定的晶体结构，是发现新材料的关键途径。与其他领域的结构预测任务（如蛋白质）相比，CSP由于晶体结构固有的复杂几何形状而相对欠发达。本文提出了专门为CSP设计的Siamese基础模型。我们提出的预训练-微调框架DAO包含两个互补的基础模型：用于结构生成的DAO-G和用于能量预测的DAO-P。在CSP基准测试（MP-20和MPTS-52）上的实验表明，我们的DAO-G在所有指标上均显着优于最先进（SOTA）的方法。广泛的消融研究进一步证实，DAO-G擅长生成多样化的多晶型结构，并且DAO-P提供的数据集松弛和能量指导对于增强DAO-G的性能至关重要。当应用于三种现实世界的超导体（$ ext{CsV}3 ext{Sb}_5$, $ ext{Zr}{16} ext{Rh}8 ext{O}_4$ 和 $ ext{Zr}{16} ext{Pd}_8 ext{O}_4$）时，我们的基础模型实现了准确的临界温度预测和结构生成。例如，在$ ext{CsV}_3 ext{Sb}_5$上，DAO-G生成的结构接近实验结构，RMSE为0.0085；DAO-P预测的$T_c$值具有很高的准确性（2.26 K vs. 真实值 2.30 K）。

🔬 方法详解

问题定义：晶体结构预测（CSP）旨在根据材料的化学成分预测其稳定的晶体结构。现有方法，如基于密度泛函理论（DFT）的计算，计算成本高昂，且难以有效探索所有可能的结构。此外，现有机器学习方法在处理复杂晶体结构时，泛化能力有限。

核心思路：论文的核心思路是利用Siamese网络结构，构建两个互补的基础模型：DAO-G用于生成候选晶体结构，DAO-P用于预测结构的能量。通过预训练-微调框架，使模型能够学习到晶体结构的内在规律，从而更有效地进行结构预测。Siamese结构允许模型学习结构之间的相似性和差异性，从而更好地探索结构空间。

技术框架：DAO框架包含两个主要模块：DAO-G和DAO-P。DAO-G是一个生成模型，负责生成候选晶体结构。DAO-P是一个能量预测模型，负责评估候选结构的能量。这两个模型通过预训练-微调的方式进行训练。预训练阶段，模型在大规模晶体结构数据集上进行训练，学习晶体结构的通用表示。微调阶段，模型在特定任务的数据集上进行微调，以适应特定任务的需求。

关键创新：论文的关键创新在于提出了Siamese基础模型用于晶体结构预测。与现有方法相比，该方法能够更有效地探索结构空间，并生成更准确的晶体结构。此外，DAO框架通过结合结构生成和能量预测，实现了更全面的晶体结构预测。

关键设计：DAO-G和DAO-P的具体网络结构未知，但可以推测DAO-G可能采用生成对抗网络（GAN）或变分自编码器（VAE）等生成模型，DAO-P可能采用图神经网络（GNN）等模型来处理晶体结构的图表示。损失函数的设计可能包括结构相似性损失、能量预测损失等。数据集松弛和能量指导的具体实现方式未知，但可能涉及对数据集进行扰动，并利用能量信息来指导结构的生成。

🖼️ 关键图片

📊 实验亮点

DAO-G在MP-20和MPTS-52等CSP基准测试中，各项指标均显著优于现有SOTA方法。在$ ext{CsV}_3 ext{Sb}_5$超导体上，DAO-G生成的结构RMSE仅为0.0085，DAO-P预测的临界温度为2.26 K，与真实值2.30 K非常接近。传统DFT计算方法在相同任务上的计算速度慢1000倍以上，且精度远低于DAO。

🎯 应用场景

该研究成果可广泛应用于新材料发现，特别是超导材料、电池材料等功能材料的开发。通过高效准确的晶体结构预测，可以加速材料研发进程，降低实验成本，并有望发现具有优异性能的新型材料。

📄 摘要（原文）

Crystal Structure Prediction (CSP), which aims to generate stable crystal structures from compositions, represents a critical pathway for discovering novel materials. While structure prediction tasks in other domains, such as proteins, have seen remarkable progress, CSP remains a relatively underexplored area due to the more complex geometries inherent in crystal structures. In this paper, we propose Siamese foundation models specifically designed to address CSP. Our pretrain-finetune framework, named DAO, comprises two complementary foundation models: DAO-G for structure generation and DAO-P for energy prediction. Experiments on CSP benchmarks (MP-20 and MPTS-52) demonstrate that our DAO-G significantly surpasses state-of-the-art (SOTA) methods across all metrics. Extensive ablation studies further confirm that DAO-G excels in generating diverse polymorphic structures, and the dataset relaxation and energy guidance provided by DAO-P are essential for enhancing DAO-G's performance. When applied to three real-world superconductors ($\text{CsV}3\text{Sb}_5$, $ \text{Zr}{16}\text{Rh}8\text{O}_4$ and $\text{Zr}{16}\text{Pd}_8\text{O}_4$) that are known to be challenging to analyze, our foundation models achieve accurate critical temperature predictions and structure generations. For instance, on $\text{CsV}_3\text{Sb}_5$, DAO-G generates a structure close to the experimental one with an RMSE of 0.0085; DAO-P predicts the $T_c$ value with high accuracy (2.26 K vs. the ground-truth value of 2.30 K). In contrast, conventional DFT calculators like Quantum Espresso only successfully derive the structure of the first superconductor within an acceptable time, while the RMSE is nearly 8 times larger, and the computation speed is more than 1000 times slower. These compelling results collectively highlight the potential of our approach for advancing materials science research and development.

Siamese Foundation Models for Crystal Structure Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理