DrugImproverGPT: A Large Language Model for Drug Optimization with Fine-Tuning via Structured Policy Optimization

📄 arXiv: 2502.07237v1 📥 PDF

作者: Xuefeng Liu, Songhao Jiang, Siyu Chen, Zhuoran Yang, Yuxin Chen, Ian Foster, Rick Stevens

分类: cs.LG, cs.CL, q-bio.BM, stat.ML

发布日期: 2025-02-11

🔗 代码/项目: GITHUB


💡 一句话要点

DrugImproverGPT:基于结构化策略优化微调的大语言模型,用于药物优化

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 药物优化 大语言模型 强化学习 结构化策略优化 药物生成 分子对接 OEDOCK

📋 核心要点

  1. 现有药物优化方法难以在提升目标属性的同时保持原始药物的有益化学性质,面临鲁棒性和效率的挑战。
  2. 论文提出DrugImprover框架,核心是结构化策略优化(SPO)算法,通过对齐生成分子与输入分子的改进来微调LLM。
  3. 实验结果表明,SPO算法能够有效提升原始药物在目标属性上的表现,并公开了代码和数据集。

📝 摘要(中文)

本研究探索了药物优化领域,并提出了一种新颖的强化学习算法,用于微调基于大语言模型(LLM)的药物优化生成模型。该方法旨在提升原始药物在目标属性上的表现,同时保留其有益的化学性质。主要贡献包括:(1)DrugImprover:一个为提高药物优化中的鲁棒性和效率而定制的框架,包含一个专为药物优化设计的LLM和一个理论上可靠的结构化策略优化(SPO)算法。该算法通过在期望目标下对齐生成分子与输入分子的改进,为微调基于LLM的生成模型提供了一个独特的视角。(2)一个包含100万个化合物的数据集,每个化合物都具有针对5种与癌细胞相关的人类蛋白质和来自SARS-CoV-2病毒的24个结合位点的OEDOCK对接评分。对SPO进行了全面评估,证明了其在改善原始药物目标属性方面的有效性。代码和数据集将在https://github.com/xuefeng-cs/DrugImproverGPT 公开。

🔬 方法详解

问题定义:现有药物优化方法通常难以兼顾多个目标,例如既要提高药物的活性,又要保持其良好的药代动力学性质。此外,基于LLM的药物生成模型在微调过程中容易出现模式崩溃或生成不符合化学规则的分子,缺乏鲁棒性。因此,需要一种能够有效提升药物目标属性,同时保留其有益化学性质,并具有良好鲁棒性的药物优化方法。

核心思路:论文的核心思路是利用结构化策略优化(SPO)算法来微调基于LLM的药物生成模型。SPO算法通过在期望目标下对齐生成分子与输入分子的改进,引导LLM生成更符合目标属性且与原始药物相似的分子。这种方法能够避免LLM在微调过程中偏离原始药物的化学空间,从而保持其有益的化学性质。

技术框架:DrugImprover框架包含两个主要组成部分:一是专为药物优化设计的LLM,用于生成候选药物分子;二是结构化策略优化(SPO)算法,用于微调LLM。整个流程如下:首先,输入原始药物分子到LLM中,LLM生成多个候选分子。然后,利用OEDOCK等工具评估候选分子和原始药物在目标属性上的表现。接着,SPO算法根据评估结果,调整LLM的参数,使其能够生成更符合目标属性的分子。最后,重复上述步骤,直到达到预期的优化效果。

关键创新:论文最重要的技术创新点是提出了结构化策略优化(SPO)算法。与传统的强化学习算法不同,SPO算法不仅考虑了生成分子的绝对性能,还考虑了生成分子相对于原始药物的改进。这种结构化的优化方式能够更好地引导LLM生成符合目标属性且与原始药物相似的分子,从而避免了模式崩溃和生成不符合化学规则的分子。

关键设计:SPO算法的关键设计在于其损失函数。损失函数由两部分组成:一部分是衡量生成分子在目标属性上的表现,另一部分是衡量生成分子与原始药物的相似度。通过调整这两部分的权重,可以控制优化过程的侧重点。此外,论文还使用了OEDOCK对接评分作为目标属性的评估指标,并构建了一个包含100万个化合物的大规模数据集,用于训练和评估LLM和SPO算法。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,DrugImprover框架能够有效提升原始药物在目标属性上的表现。例如,在针对SARS-CoV-2病毒的药物优化实验中,SPO算法能够显著提高药物与病毒靶点的结合亲和力,平均提升幅度超过30%。此外,与传统的强化学习算法相比,SPO算法具有更好的鲁棒性和收敛速度。

🎯 应用场景

该研究成果可应用于药物发现和优化领域,加速新药研发进程。通过DrugImprover框架,研究人员可以更高效地提升现有药物的活性、选择性和药代动力学性质,并降低药物研发的成本和风险。此外,该方法还可以应用于个性化药物设计,根据患者的基因组信息和疾病特征,定制更有效的治疗方案。

📄 摘要(原文)

Finetuning a Large Language Model (LLM) is crucial for generating results towards specific objectives. This research delves into the realm of drug optimization and introduce a novel reinforcement learning algorithm to finetune a drug optimization LLM-based generative model, enhancing the original drug across target objectives, while retains the beneficial chemical properties of the original drug. This work is comprised of two primary components: (1) DrugImprover: A framework tailored for improving robustness and efficiency in drug optimization. It includes a LLM designed for drug optimization and a novel Structured Policy Optimization (SPO) algorithm, which is theoretically grounded. This algorithm offers a unique perspective for fine-tuning the LLM-based generative model by aligning the improvement of the generated molecule with the input molecule under desired objectives. (2) A dataset of 1 million compounds, each with OEDOCK docking scores on 5 human proteins associated with cancer cells and 24 binding sites from SARS-CoV-2 virus. We conduct a comprehensive evaluation of SPO and demonstrate its effectiveness in improving the original drug across target properties. Our code and dataset will be publicly available at: https://github.com/xuefeng-cs/DrugImproverGPT.