Small Molecule Optimization with Large Language Models
作者: Philipp Guevorguian, Menua Bedrosian, Tigran Fahradyan, Gayane Chilingaryan, Hrant Khachatrian, Armen Aghajanyan
分类: cs.LG, cs.NE, q-bio.QM
发布日期: 2024-07-26
💡 一句话要点
利用大型语言模型优化小分子,实现药物设计领域性能突破
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 小分子优化 药物设计 大型语言模型 分子生成 遗传算法
📋 核心要点
- 现有分子优化方法在处理复杂属性和有限数据时面临挑战,难以有效探索化学空间。
- 论文提出了一种基于大型语言模型的分子优化方法,结合遗传算法、拒绝采样和提示优化,提升优化效率。
- 实验结果表明,该方法在多个分子优化基准测试中取得了显著提升,尤其在Practical Molecular Optimization上提升了8%。
📝 摘要(中文)
本文提出了Chemlactica和Chemma,两个基于大型语言模型的小分子优化模型。这两个模型在一个包含1.1亿分子和400亿tokens的新型语料库上进行了微调,该语料库包含了分子的计算属性。实验表明,这些模型在生成具有特定属性的分子以及从有限样本中预测新的分子特征方面表现出色。此外,本文还提出了一种新的优化算法,该算法利用这些语言模型,在有限访问黑盒预言机的情况下,优化分子的任意属性。该方法结合了遗传算法、拒绝采样和提示优化等思想,在多个分子优化基准测试中取得了最先进的性能,其中在Practical Molecular Optimization上比以前的方法提高了8%。本文公开了训练语料库、语言模型和优化算法。
🔬 方法详解
问题定义:论文旨在解决小分子药物设计中的优化问题,即如何高效地生成具有特定目标属性的分子结构。现有方法,如传统的基于规则的方法或基于机器学习的方法,在处理复杂属性和数据稀疏的情况下,往往难以有效探索化学空间,导致优化效率低下,难以找到满足要求的分子。
核心思路:论文的核心思路是利用大型语言模型(LLM)强大的生成能力和对分子结构的理解能力,将分子优化问题转化为一个序列生成问题。通过在大量分子数据上预训练和微调LLM,使其能够学习到分子结构与属性之间的关系,从而能够根据给定的目标属性生成相应的分子结构。此外,结合遗传算法、拒绝采样和提示优化等策略,进一步提升优化效率和生成质量。
技术框架:整体框架包含以下几个主要模块: 1. 数据准备:构建包含大量分子及其属性信息的训练语料库。 2. 语言模型训练:使用构建的语料库对LLM进行预训练和微调,得到Chemlactica和Chemma模型。 3. 分子优化:利用训练好的LLM,结合遗传算法、拒绝采样和提示优化等策略,生成具有特定目标属性的分子结构。 4. 评估:使用黑盒预言机对生成的分子结构进行评估,并根据评估结果调整优化策略。
关键创新:最重要的技术创新点在于将大型语言模型应用于小分子优化问题,并结合遗传算法、拒绝采样和提示优化等策略,形成了一种新的分子优化算法。与现有方法相比,该方法能够更有效地探索化学空间,生成具有特定目标属性的分子结构。
关键设计: 1. 训练语料库:构建了一个包含1.1亿分子和400亿tokens的大型语料库,其中包含了分子的各种属性信息。 2. 语言模型:使用了Transformer架构的LLM,并对其进行了预训练和微调。 3. 优化算法:结合了遗传算法、拒绝采样和提示优化等策略,具体来说,遗传算法用于生成候选分子,拒绝采样用于筛选符合要求的分子,提示优化用于引导LLM生成更符合要求的分子。
🖼️ 关键图片
📊 实验亮点
该方法在Practical Molecular Optimization基准测试中取得了显著提升,相比之前的最佳方法提高了8%。此外,该方法在其他分子优化基准测试中也表现出良好的性能,证明了其有效性和泛化能力。公开的训练语料库、语言模型和优化算法,将促进该领域的研究和发展。
🎯 应用场景
该研究成果可应用于药物发现、材料科学等领域,加速新药研发和新材料设计进程。通过优化分子结构,可以设计出具有特定药理活性、生物相容性或物理化学性质的分子,从而满足不同应用场景的需求。未来,该方法有望成为药物设计和材料设计的重要工具。
📄 摘要(原文)
Recent advancements in large language models have opened new possibilities for generative molecular drug design. We present Chemlactica and Chemma, two language models fine-tuned on a novel corpus of 110M molecules with computed properties, totaling 40B tokens. These models demonstrate strong performance in generating molecules with specified properties and predicting new molecular characteristics from limited samples. We introduce a novel optimization algorithm that leverages our language models to optimize molecules for arbitrary properties given limited access to a black box oracle. Our approach combines ideas from genetic algorithms, rejection sampling, and prompt optimization. It achieves state-of-the-art performance on multiple molecular optimization benchmarks, including an 8% improvement on Practical Molecular Optimization compared to previous methods. We publicly release the training corpus, the language models and the optimization algorithm.