Generative Design of Functional Metal Complexes Utilizing the Internal Knowledge of Large Language Models

📄 arXiv: 2410.18136v1 📥 PDF

作者: Jieyu Lu, Zhangde Song, Qiyuan Zhao, Yuanqi Du, Yirui Cao, Haojun Jia, Chenru Duan

分类: physics.chem-ph, cs.LG, cs.NE

发布日期: 2024-10-21


💡 一句话要点

提出LLM-EO框架,利用大语言模型内部知识进行功能性金属配合物生成设计。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 金属配合物设计 大语言模型 进化优化 生成模型 提示工程

📋 核心要点

  1. 传统遗传算法在过渡金属配合物设计中面临搜索空间大、知识迁移困难等问题。
  2. LLM-EO框架将大语言模型融入进化优化,利用其预训练知识指导分子设计。
  3. 实验表明,LLM-EO在HOMO-LUMO间隙优化中表现优异,仅需少量候选即可找到优秀分子。

📝 摘要(中文)

功能性过渡金属配合物(TMCs)的设计面临着金属和配体搜索空间巨大的挑战,需要高效的优化策略。传统的遗传算法(GAs)通常采用随机突变和交叉,并由显式的数学目标驱动来探索这个空间。然而,在不同的GA任务之间转移知识是困难的。本文将大型语言模型(LLMs)集成到进化优化框架(LLM-EO)中,并将其应用于TMCs的单目标和多目标优化。研究发现,LLM-EO通过利用LLMs在大量预训练过程中获得的化学知识,超越了传统的GAs。值得注意的是,在没有监督微调的情况下,LLMs利用了来自优化过程的完整历史数据,优于那些只关注表现最佳的TMCs的方法。LLM-EO仅通过提出200个候选物,就在137万个TMCs空间中成功识别出HOMO-LUMO间隙最大的前20个TMCs中的8个。通过使用自然语言的提示工程,LLM-EO为多目标优化引入了前所未有的灵活性,从而避免了对复杂数学公式的需求。作为生成模型,LLMs可以通过合并内部知识和外部化学数据来提出具有独特属性的新配体和TMCs,从而结合了高效优化和分子生成的优势。随着LLMs作为预训练基础模型的潜力不断增长以及新的后训练推理策略的出现,我们预见基于LLM的进化优化在化学和材料设计中具有广泛的应用。

🔬 方法详解

问题定义:论文旨在解决功能性过渡金属配合物(TMCs)设计中,由于金属和配体组合空间巨大,导致传统优化算法效率低下的问题。现有遗传算法(GAs)依赖随机突变和交叉,难以有效利用已有的化学知识,且不同任务间的知识迁移困难。

核心思路:论文的核心思路是将大型语言模型(LLMs)的内部知识融入到进化优化过程中。LLMs在大量文本数据上预训练,已经学习了丰富的化学知识。通过合适的提示工程,可以引导LLMs生成有潜力的TMCs结构,从而加速优化过程。

技术框架:LLM-EO框架主要包含以下几个阶段:1) 初始化:随机生成或从现有数据库中选择初始TMC群体。2) 提示工程:设计自然语言提示,引导LLM基于当前群体信息生成新的TMC候选结构。3) LLM生成:LLM根据提示生成新的TMC结构。4) 评估:使用计算化学方法评估生成的TMC的性能指标(如HOMO-LUMO间隙)。5) 选择:根据性能指标选择优秀的TMC进入下一代。重复2-5步,直到达到优化目标。

关键创新:最重要的技术创新点在于利用LLM作为生成模型,直接生成具有潜在功能性的TMC结构。与传统GAs的随机突变相比,LLM的生成过程受到其内部化学知识的指导,因此更有可能生成合理的、高性能的分子。此外,通过自然语言提示工程,可以灵活地调整优化目标,实现多目标优化,而无需复杂的数学公式。

关键设计:关键设计包括:1) 提示工程:设计合适的自然语言提示,引导LLM生成目标TMC结构。提示可以包含当前群体的信息、目标性能指标等。2) LLM选择:选择具有较强生成能力的LLM,并根据具体任务进行适当的微调(虽然论文中未使用微调)。3) 评估方法:选择合适的计算化学方法评估TMC的性能指标,如密度泛函理论(DFT)计算HOMO-LUMO间隙。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,LLM-EO在HOMO-LUMO间隙优化任务中表现优异。在137万个TMCs的搜索空间中,LLM-EO仅通过提出200个候选分子,就成功识别出HOMO-LUMO间隙最大的前20个TMCs中的8个。这表明LLM-EO具有很高的搜索效率和准确性,显著优于传统的遗传算法。

🎯 应用场景

该研究成果可应用于新催化剂设计、光电器件材料开发、药物发现等领域。通过结合LLM的生成能力和计算化学的精确评估,可以加速新材料的发现过程,降低研发成本,并有望发现具有独特性能的TMCs。

📄 摘要(原文)

Designing functional transition metal complexes (TMCs) faces challenges due to the vast search space of metals and ligands, requiring efficient optimization strategies. Traditional genetic algorithms (GAs) are commonly used, employing random mutations and crossovers driven by explicit mathematical objectives to explore this space. Transferring knowledge between different GA tasks, however, is difficult. We integrate large language models (LLMs) into the evolutionary optimization framework (LLM-EO) and apply it in both single- and multi-objective optimization for TMCs. We find that LLM-EO surpasses traditional GAs by leveraging the chemical knowledge of LLMs gained during their extensive pretraining. Remarkably, without supervised fine-tuning, LLMs utilize the full historical data from optimization processes, outperforming those focusing only on top-performing TMCs. LLM-EO successfully identifies eight of the top-20 TMCs with the largest HOMO-LUMO gaps by proposing only 200 candidates out of a 1.37 million TMCs space. Through prompt engineering using natural language, LLM-EO introduces unparalleled flexibility into multi-objective optimizations, thereby circumventing the necessity for intricate mathematical formulations. As generative models, LLMs can suggest new ligands and TMCs with unique properties by merging both internal knowledge and external chemistry data, thus combining the benefits of efficient optimization and molecular generation. With increasing potential of LLMs as pretrained foundational models and new post-training inference strategies, we foresee broad applications of LLM-based evolutionary optimization in chemistry and materials design.