GeLLMO: Generalizing Large Language Models for Multi-property Molecule Optimization
作者: Vishal Dey, Xiao Hu, Xia Ning
分类: cs.LG, cs.AI, cs.CL, physics.chem-ph, q-bio.QM
发布日期: 2025-02-19 (更新: 2025-05-27)
备注: Accepted to ACL Main 2025. Vishal Dey and Xiao Hu contributed equally to this paper
🔗 代码/项目: GITHUB
💡 一句话要点
提出GeLLMO:一种基于指令调优的大语言模型,用于多属性分子优化。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 分子优化 大语言模型 指令调优 零样本学习 药物发现
📋 核心要点
- 现有分子优化方法通常局限于单属性或双属性优化,且在新任务上的泛化能力较差。
- GeLLMOs通过指令调优的方式,利用大语言模型强大的泛化能力,实现多属性分子优化。
- 实验表明,GeLLMOs在领域内和领域外任务上均优于现有方法,并具备优秀的零样本泛化能力。
📝 摘要(中文)
本文提出了一种基于大语言模型(LLM)的分子优化方法,旨在解决现有计算方法在单/双属性优化任务上的局限性以及在新优化任务上的可扩展性和泛化性问题。为此,作者构建了MuMOInstruct数据集,这是一个高质量的指令调优数据集,专门用于复杂的多属性分子优化任务。基于MuMOInstruct,作者开发了一系列用于分子优化的指令调优LLM,称为GeLLMOs。在5个领域内和5个领域外的任务上的大量评估表明,GeLLMOs始终优于最先进的基线模型。GeLLMOs还表现出出色的零样本泛化能力,显著优于强大的闭源LLM。这种强大的泛化能力展示了GeLLMOs作为分子优化基础模型的巨大潜力,从而无需资源密集型再训练即可解决新的优化任务。MuMOInstruct数据集、模型和代码已开源。
🔬 方法详解
问题定义:现有分子优化方法主要集中在单属性或双属性的优化,难以同时优化多个属性。此外,这些方法通常需要针对特定任务进行训练,泛化能力较弱,难以适应新的优化目标。因此,如何设计一种能够同时优化多个属性,并且具有良好泛化能力的分子优化方法是一个重要的挑战。
核心思路:本文的核心思路是利用大语言模型(LLM)强大的语言理解和生成能力,将其应用于分子优化任务。通过将分子优化问题转化为自然语言指令,并使用指令调优的方式训练LLM,使其能够理解和执行各种复杂的分子优化任务。这种方法的核心优势在于LLM具有强大的泛化能力,可以快速适应新的优化目标,而无需重新训练。
技术框架:GeLLMOs的整体框架包括以下几个主要步骤:1) 构建MuMOInstruct数据集,该数据集包含大量的分子优化指令和对应的分子结构;2) 使用MuMOInstruct数据集对LLM进行指令调优,使其能够理解和执行分子优化指令;3) 在各种分子优化任务上评估GeLLMOs的性能,包括领域内和领域外的任务。
关键创新:本文最重要的技术创新点在于将指令调优技术应用于分子优化领域,并构建了高质量的MuMOInstruct数据集。通过指令调优,LLM能够更好地理解和执行分子优化任务,从而提高了模型的性能和泛化能力。与现有方法相比,GeLLMOs具有更强的泛化能力和更高的优化效率。
关键设计:MuMOInstruct数据集包含了各种类型的分子优化指令,例如“优化分子的溶解度”、“优化分子的结合亲和力”等。数据集中的每个指令都对应一个或多个分子结构,这些分子结构是根据指令的要求生成的。在指令调优过程中,作者使用了标准的交叉熵损失函数,并采用了一些常用的优化技巧,例如学习率衰减和权重衰减。具体的LLM架构和参数设置在论文中有详细描述,但由于篇幅限制,这里不再赘述。
🖼️ 关键图片
📊 实验亮点
GeLLMOs在5个领域内和5个领域外的任务上均优于最先进的基线模型。特别是在零样本泛化能力方面,GeLLMOs显著优于强大的闭源LLM,表明其具有出色的泛化能力。具体性能数据和对比基线在论文中有详细描述。
🎯 应用场景
GeLLMOs具有广泛的应用前景,可用于药物发现、材料设计等领域。它可以帮助研究人员快速找到具有特定属性的分子,从而加速新药和新材料的研发过程。此外,GeLLMOs还可以用于优化现有分子的性能,例如提高药物的疗效或降低材料的成本。未来,GeLLMOs有望成为分子优化领域的重要工具。
📄 摘要(原文)
Despite recent advancements, most computational methods for molecule optimization are constrained to single- or double-property optimization tasks and suffer from poor scalability and generalizability to novel optimization tasks. Meanwhile, Large Language Models (LLMs) demonstrate remarkable out-of-domain generalizability to novel tasks. To demonstrate LLMs' potential for molecule optimization, we introduce MuMOInstruct, the first high-quality instruction-tuning dataset specifically focused on complex multi-property molecule optimization tasks. Leveraging MuMOInstruct, we develop GeLLMOs, a series of instruction-tuned LLMs for molecule optimization. Extensive evaluations across 5 in-domain and 5 out-of-domain tasks demonstrate that GeLLMOs consistently outperform state-of-the-art baselines. GeLLMOs also exhibit outstanding zero-shot generalization to unseen tasks, significantly outperforming powerful closed-source LLMs. Such strong generalizability demonstrates the tremendous potential of GeLLMOs as foundational models for molecule optimization, thereby tackling novel optimization tasks without resource-intensive retraining. MuMOInstruct, models, and code are accessible through https://github.com/ninglab/GeLLMO.