Crys-JEPA: Accelerating Crystal Discovery via Embedding Screening and Generative Refinement
作者: Nian Liu, Nikita Kazeev, Stephen Gregory Dale, Artem Maevskiy, Yuwei Zeng, Ryoji Kubo, Pengru Huang, Thomas Laurent, Yann LeCun, Kostya S. Novoselov, Xavier Bresson
分类: cs.LG
发布日期: 2026-05-14
💡 一句话要点
Crys-JEPA:通过嵌入筛选和生成细化加速晶体发现
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 晶体生成 材料发现 联合嵌入 能量预测 生成模型 稳定性评估 新材料设计
📋 核心要点
- 现有晶体生成模型在稳定性与新颖性之间存在显著权衡,难以同时生成稳定且新颖的晶体。
- Crys-JEPA通过学习能量感知的潜在空间,将稳定性评估转化为嵌入比较,降低了对能量评估的依赖。
- 论文提出筛选和细化流程,通过识别有希望的晶体并重新引入模型进行训练,进一步提升生成模型的性能。
📝 摘要(中文)
从头晶体生成旨在发现不仅真实,而且稳定和新颖的材料。然而,大多数现有的生成模型被训练为最大化观察到的晶体的可能性,这鼓励样本保持接近已知的材料,但不一定与发现中重要的标准对齐。通过一项实证研究,我们表明当前的晶体生成模型陷入了明显的稳定性-新颖性权衡:朝着观察到的分布移动保持了稳定性,但限制了新颖性,而远离它会迅速破坏稳定性。这表明,发现既稳定又新颖的晶体的有用区域非常狭窄。为了摆脱这种权衡,我们引入了Crys-JEPA,这是一种用于晶体的联合嵌入预测架构,它学习一个能量感知的潜在空间,从而保留形成能差异。在这个空间中,稳定性评估可以被重新表述为基于嵌入的与可访问的训练晶体的比较,从而减少了对昂贵的能量评估和特定于任务的外部参考的依赖。在Crys-JEPA的基础上,我们进一步开发了一种筛选和细化流程,该流程识别有希望的生成晶体,并重新引入它们以细化生成模型。在MP-20和Alex-MP-20数据集上,我们在V.S.U.N指标上分别实现了高达81.4%和82.6%的改进。
🔬 方法详解
问题定义:论文旨在解决从头晶体生成中,现有生成模型难以同时保证生成晶体的稳定性和新颖性的问题。现有方法倾向于生成与已知晶体相似的结构,缺乏探索新材料的能力,或者生成不稳定、不切实际的结构。这种稳定性-新颖性权衡是现有方法的痛点。
核心思路:论文的核心思路是学习一个能量感知的晶体嵌入空间,使得在这个空间中,晶体的稳定性可以通过与其他已知稳定晶体的嵌入进行比较来评估,而无需进行昂贵的能量计算。通过这种方式,模型可以更容易地探索新的晶体结构,同时保持较高的稳定性。
技术框架:Crys-JEPA 的整体框架包含以下几个主要模块:1) 晶体结构的嵌入模块,将晶体结构映射到能量感知的潜在空间;2) 稳定性评估模块,通过比较生成晶体与训练集中已知稳定晶体的嵌入来评估其稳定性;3) 生成模型,用于生成新的晶体结构;4) 筛选和细化流程,筛选有希望的生成晶体,并将其重新引入生成模型进行训练,以提高生成模型的性能。
关键创新:论文最重要的技术创新点在于提出了能量感知的晶体嵌入空间,并利用该空间进行稳定性评估。与传统的依赖于能量计算的稳定性评估方法相比,该方法更加高效,并且能够更好地指导生成模型探索新的晶体结构。此外,筛选和细化流程也进一步提升了生成模型的性能。
关键设计:Crys-JEPA 使用 Joint Embedding Predictive Architecture (JEPA) 来学习晶体嵌入。JEPA 通过预测晶体结构的不同视图之间的关系来学习鲁棒的表示。稳定性评估模块使用余弦相似度来比较生成晶体与训练晶体的嵌入。筛选和细化流程选择嵌入空间中距离已知晶体较远,但稳定性评分较高的晶体,并将其添加到训练集中,以引导生成模型探索新的区域。
🖼️ 关键图片
📊 实验亮点
Crys-JEPA在MP-20和Alex-MP-20数据集上取得了显著的性能提升,在V.S.U.N指标上分别达到了81.4%和82.6%的改进。这些结果表明,Crys-JEPA能够有效地解决晶体生成中的稳定性-新颖性权衡问题,并生成更具潜力的晶体材料。
🎯 应用场景
该研究成果可应用于新材料的发现与设计,尤其是在能源、催化、电子等领域。通过加速晶体材料的筛选和优化过程,可以降低研发成本,缩短研发周期,并有望发现具有优异性能的新型晶体材料,例如高性能电池材料、高效催化剂等,从而推动相关领域的技术进步。
📄 摘要(原文)
De novo crystal generation seeks to discover materials that are not merely realistic, but also stable and novel. However, most existing generative models are trained to maximize the likelihood of observed crystals, which encourages samples to stay close to known materials yet not necessarily align with the criteria that matter in discovery. Through an empirical investigation, we show that current crystal generative models are caught in a pronounced stability--novelty trade-off: moving toward the observed distribution preserves stability but limits novelty, whereas moving away from it quickly destroys stability. This suggests that the useful region for discovering crystals that are both stable and novel is extremely narrow. To escape the trade-off, we introduce Crys-JEPA, a joint embedding predictive architecture for crystals that learns an energy-aware latent space preserving formation-energy differences. In this space, stability assessment can be reformulated as an embedding-based comparison against accessible training crystals, reducing the reliance on expensive energy evaluation and task-specific external references. Building on Crys-JEPA, we further develop a screening-and-refinement pipeline that identifies promising generated crystals and reintroduces them to refine the generative model. On MP-20 and Alex-MP-20 datasets, we achieve improvements over baselines up to 81.4% and 82.6% on V.S.U.N metric, respectively.