Large Language Models for Controllable Multi-property Multi-objective Molecule Optimization

📄 arXiv: 2505.23987v1 📥 PDF

作者: Vishal Dey, Xiao Hu, Xia Ning

分类: cs.LG, cs.AI, cs.CL, q-bio.BM

发布日期: 2025-05-29

🔗 代码/项目: GITHUB


💡 一句话要点

提出C-MuMOInstruct数据集和GeLLMO-Cs模型,解决药物设计中多属性多目标分子优化问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 分子优化 多属性优化 指令调优 大语言模型 药物设计

📋 核心要点

  1. 现有计算方法和指令调优LLM难以捕捉药物设计中细微的、特定于属性的多目标优化需求。
  2. 论文提出C-MuMOInstruct数据集和GeLLMO-Cs模型,通过指令调优实现有针对性的属性优化。
  3. 实验表明,GeLLMO-Cs在多个任务上显著优于现有方法,并展现出强大的零样本泛化能力。

📝 摘要(中文)

在真实的药物设计中,分子优化需要在达到药学相关水平的同时,选择性地改进多个分子属性,并保持其他已满足标准的属性。然而,现有的计算方法和指令调优的大语言模型(LLMs)无法捕捉到这种细微的、特定于属性的目标,限制了它们的实际应用。为了解决这个问题,我们引入了C-MuMOInstruct,这是第一个专注于具有显式、特定于属性的目标的多属性优化的指令调优数据集。利用C-MuMOInstruct,我们开发了GeLLMO-Cs,这是一系列可以执行有针对性的、特定于属性的优化的大语言模型。我们在5个同分布和5个异分布任务上的实验表明,GeLLMO-Cs始终优于强大的基线,成功率提高了高达126%。值得注意的是,GeLLMO-Cs对新的优化任务和未见过的指令表现出令人印象深刻的零样本泛化能力。这为支持具有特定属性目标的现实、多样化优化的基础LLM迈出了一步。C-MuMOInstruct和代码可通过https://github.com/ninglab/GeLLMO-C访问。

🔬 方法详解

问题定义:论文旨在解决药物设计中多属性、多目标分子优化的问题。现有方法,包括传统的计算方法和指令调优的LLM,无法有效地处理需要同时优化多个属性,并保持其他属性在可接受范围内的复杂场景。这些方法缺乏对特定属性目标的细粒度控制,导致优化结果不理想。

核心思路:论文的核心思路是构建一个专门用于多属性分子优化的指令调优数据集C-MuMOInstruct,并在此基础上训练大语言模型GeLLMO-Cs。通过指令调优,模型能够理解并执行特定于属性的优化指令,从而实现更精确和可控的分子优化。这种方法借鉴了自然语言处理中指令学习的成功经验,将其应用于分子设计领域。

技术框架:整体框架包含两个主要部分:C-MuMOInstruct数据集的构建和GeLLMO-Cs模型的训练。C-MuMOInstruct数据集包含大量的分子优化任务,每个任务都包含明确的、特定于属性的优化目标。GeLLMO-Cs模型基于预训练的大语言模型,通过在C-MuMOInstruct数据集上进行指令调优,使其具备执行分子优化任务的能力。

关键创新:论文的关键创新在于提出了C-MuMOInstruct数据集,这是第一个专注于多属性分子优化且包含显式属性目标的指令调优数据集。与以往的分子优化方法相比,GeLLMO-Cs模型能够更好地理解和执行用户指定的优化目标,从而实现更精确和可控的分子优化。此外,GeLLMO-Cs展现出强大的零样本泛化能力,能够处理未见过的优化任务和指令。

关键设计:C-MuMOInstruct数据集的设计考虑了药物设计中常见的多个属性,例如溶解度、结合亲和力等。数据集中的每个样本都包含一个起始分子、多个优化目标以及相应的指令。GeLLMO-Cs模型的训练采用了标准的指令调优方法,使用了交叉熵损失函数来优化模型参数。具体的网络结构和参数设置在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GeLLMO-Cs在5个同分布和5个异分布任务上均优于现有基线方法,成功率最高提升126%。更重要的是,GeLLMO-Cs展现出强大的零样本泛化能力,能够处理未见过的优化任务和指令,表明其具有很强的实际应用潜力。

🎯 应用场景

该研究成果可应用于药物发现、材料科学等领域,加速新分子和材料的设计过程。通过精确控制分子属性,可以更高效地筛选出具有特定功能的候选分子,降低研发成本,缩短研发周期。未来,该方法有望成为分子设计领域的重要工具。

📄 摘要(原文)

In real-world drug design, molecule optimization requires selectively improving multiple molecular properties up to pharmaceutically relevant levels, while maintaining others that already meet such criteria. However, existing computational approaches and instruction-tuned LLMs fail to capture such nuanced property-specific objectives, limiting their practical applicability. To address this, we introduce C-MuMOInstruct, the first instruction-tuning dataset focused on multi-property optimization with explicit, property-specific objectives. Leveraging C-MuMOInstruct, we develop GeLLMO-Cs, a series of instruction-tuned LLMs that can perform targeted property-specific optimization. Our experiments across 5 in-distribution and 5 out-of-distribution tasks show that GeLLMO-Cs consistently outperform strong baselines, achieving up to 126% higher success rate. Notably, GeLLMO-Cs exhibit impressive 0-shot generalization to novel optimization tasks and unseen instructions. This offers a step toward a foundational LLM to support realistic, diverse optimizations with property-specific objectives. C-MuMOInstruct and code are accessible through https://github.com/ninglab/GeLLMO-C.