Universal Fine-Grained Symmetry Inference and Enforcement for Rigorous Crystal Structure Prediction
作者: Shi Yin, Jinming Mu, Xudong Zhu, Lixin He
分类: cond-mat.mtrl-sci, cs.AI, physics.comp-ph
发布日期: 2026-02-19
💡 一句话要点
提出通用精细对称性推断与执行框架,用于可靠的晶体结构预测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 晶体结构预测 对称性约束 大型语言模型 扩散模型 材料发现 Wyckoff模式 约束优化
📋 核心要点
- 现有晶体结构预测方法依赖软启发式对称性或检索已知结构,限制了物理真实性和新材料发现。
- 该方法利用大型语言模型编码化学语义,直接生成Wyckoff模式,并强制执行位点多样性和化学计量一致性。
- 实验表明,该框架在SUN基准测试中达到SOTA,并具有卓越的匹配性能,为探索新材料空间提供新范式。
📝 摘要(中文)
晶体结构预测(CSP)旨在从晶体成分预测其三维原子排列,对于材料发现和机理理解至关重要。现有的深度学习模型通常仅将晶体学对称性作为一种软启发式方法,或者依赖于从已知结构中检索的空间群和Wyckoff模板,这限制了物理保真度和发现真正新材料结构的能力。与基于检索的方法不同,我们的方法利用大型语言模型来编码化学语义,并直接从成分生成精细的Wyckoff模式,有效地规避了数据库查找固有的局限性。至关重要的是,我们通过有效的约束优化搜索将领域知识融入生成过程,严格执行位点多样性和原子化学计量之间的代数一致性。通过将这种对称一致的模板集成到扩散骨干中,我们的方法将随机生成轨迹约束到物理上有效的几何流形。该框架在稳定性、唯一性和新颖性(SUN)基准测试中实现了最先进的性能,以及卓越的匹配性能,从而为目标晶体学空间的严格探索建立了一种新范式。该框架能够有效地扩展到以前未知的材料空间,消除了对现有数据库或先验结构知识的依赖。
🔬 方法详解
问题定义:晶体结构预测(CSP)旨在根据材料的化学成分预测其三维原子排列。现有方法主要存在两个痛点:一是将晶体学对称性作为一种软约束,二是依赖于从已知晶体结构数据库中检索到的空间群和Wyckoff位置信息。这些方法无法保证预测结构的物理合理性,并且难以发现全新的晶体结构。
核心思路:该论文的核心思路是利用大型语言模型(LLM)学习化学语义,并直接从化学成分生成精细的Wyckoff模式。同时,通过约束优化方法,强制执行位点多样性和原子化学计量之间的代数一致性,确保生成的晶体结构在对称性上是严格满足物理规律的。将这种对称性约束融入到扩散模型中,引导生成过程在物理有效的几何流形上进行。
技术框架:该框架主要包含以下几个模块: 1. 化学语义编码器:使用大型语言模型对输入的化学成分进行编码,提取化学元素的性质和相互关系。 2. Wyckoff模式生成器:基于编码后的化学语义,生成精细的Wyckoff模式,描述原子在晶胞中的对称位置。 3. 对称性约束优化器:通过约束优化算法,强制执行位点多样性和原子化学计量之间的代数一致性,确保生成的Wyckoff模式满足晶体学对称性要求。 4. 扩散模型骨干:将对称性约束的Wyckoff模式作为条件,输入到扩散模型中,生成最终的晶体结构。
关键创新:该论文最重要的创新在于: 1. 直接生成Wyckoff模式:避免了对现有晶体结构数据库的依赖,能够探索全新的晶体结构。 2. 强制执行对称性约束:通过约束优化方法,保证了生成结构的物理合理性。 3. LLM驱动的化学语义编码:利用LLM强大的语义理解能力,更好地捕捉化学成分的复杂关系。
关键设计: 1. 损失函数:除了标准的扩散模型损失外,还引入了对称性约束损失,用于惩罚不满足对称性要求的结构。 2. 约束优化算法:采用了高效的约束优化算法,能够在合理的时间内找到满足对称性要求的Wyckoff模式。 3. LLM选择:论文中使用的LLM的具体选择和训练方式未知。
🖼️ 关键图片
📊 实验亮点
该框架在稳定性、唯一性和新颖性(SUN)基准测试中取得了state-of-the-art的性能,表明其在预测晶体结构的稳定性、生成结构的独特性以及发现新结构的能力方面均优于现有方法。同时,该方法在匹配性能方面也表现出色,意味着其预测的结构与真实结构更加接近。
🎯 应用场景
该研究成果可应用于新材料的发现与设计,加速材料研发进程。通过预测具有特定性质的晶体结构,可以指导实验合成,降低试错成本。此外,该方法还可用于理解晶体结构的形成机制,为材料科学研究提供理论支撑。
📄 摘要(原文)
Crystal structure prediction (CSP), which aims to predict the three-dimensional atomic arrangement of a crystal from its composition, is central to materials discovery and mechanistic understanding. Existing deep learning models often treat crystallographic symmetry only as a soft heuristic or rely on space group and Wyckoff templates retrieved from known structures, which limits both physical fidelity and the ability to discover genuinely new material structures. In contrast to retrieval-based methods, our approach leverages large language models to encode chemical semantics and directly generate fine-grained Wyckoff patterns from composition, effectively circumventing the limitations inherent to database lookups. Crucially, we incorporate domain knowledge into the generative process through an efficient constrained-optimization search that rigorously enforces algebraic consistency between site multiplicities and atomic stoichiometry. By integrating this symmetry-consistent template into a diffusion backbone, our approach constrains the stochastic generative trajectory to a physically valid geometric manifold. This framework achieves state-of-the-art performance across stability, uniqueness, and novelty (SUN) benchmarks, alongside superior matching performance, thereby establishing a new paradigm for the rigorous exploration of targeted crystallographic space. This framework enables efficient expansion into previously uncharted materials space, eliminating reliance on existing databases or a priori structural knowledge.