Reinforcement Learning with LLM-Guided Action Spaces for Synthesizable Lead Optimization
作者: Tao Li, Kaiyuan Hou, Tuan Vinh, Monika Raj, Zhichun Guo, Carl Yang
分类: cs.LG, cs.AI, cs.CE
发布日期: 2026-04-09
💡 一句话要点
MolReAct:基于LLM引导和反应模板约束的强化学习药物先导化合物优化
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 药物发现 先导化合物优化 强化学习 大型语言模型 反应模板 合成约束 分子设计
📋 核心要点
- 现有先导化合物优化方法难以兼顾性质提升和可合成性,或依赖高成本的反应网络枚举,LLM直接生成分子结构时常产生化学无效结构。
- MolReAct将先导化合物优化建模为马尔可夫决策过程,利用LLM作为动态反应环境,结合化学工具和反应模板约束动作空间。
- 实验表明,MolReAct在多个性质优化任务中优于现有可合成基线,平均Top-10评分提升10.4%,并显著提升了样本效率。
📝 摘要(中文)
药物发现中的先导化合物优化需要在改善治疗特性的同时,确保提出的分子修饰对应于可行的合成路线。现有方法要么优先考虑性质评分而不强制可合成性,要么依赖于对大型反应网络的昂贵枚举,而直接应用大型语言模型(LLM)经常产生化学上无效的结构。我们引入MolReAct,该框架将先导化合物优化定义为马尔可夫决策过程,其动作空间受到经过验证的反应模板的合成约束。一个工具增强的LLM智能体充当动态反应环境,调用专门的化学分析工具来识别反应位点,并从匹配的模板中提出化学上合理的转化。通过群体相对策略优化(GRPO)训练的策略模型在多步反应轨迹中选择这些约束动作,以最大化长期oracle奖励。基于SMILES的缓存机制进一步将端到端优化时间减少约43%。在来自Therapeutic Data Commons的13个性质优化任务和一个基于结构的对接任务中,MolReAct实现了0.563的平均Top-10评分,在相对改进方面优于最强的可合成基线10.4%,并在14个任务中的10个任务上获得了最佳的样本效率。消融实验证实,工具增强的反应提议和轨迹级别的策略优化都贡献了互补的收益。通过将每一步都建立在经过验证的反应模板中,MolReAct产生性质得到改善的分子,并且每个分子都伴随着明确的合成途径。
🔬 方法详解
问题定义:药物先导化合物优化需要在提升治疗性质的同时,保证分子修饰的可合成性。现有方法要么只关注性质评分而忽略合成可行性,要么依赖于对庞大反应网络的枚举,计算成本高昂。直接使用LLM生成分子结构,容易产生化学上不合理的结构,缺乏实际应用价值。
核心思路:MolReAct的核心在于将先导化合物优化问题转化为一个在合成约束下的马尔可夫决策过程。通过引入工具增强的LLM智能体,动态地生成基于反应模板的动作空间,确保每一步的分子修饰都是化学上可行的。这种方法结合了LLM的生成能力和化学规则的约束,从而在性质优化和可合成性之间取得平衡。
技术框架:MolReAct框架包含以下主要模块:1) 工具增强的LLM智能体:作为动态反应环境,利用化学分析工具识别反应位点,并根据反应模板提出候选反应。2) 策略模型:使用群体相对策略优化(GRPO)训练,从候选反应中选择最优动作,以最大化长期oracle奖励。3) 基于SMILES的缓存机制:通过缓存已探索的分子结构,减少重复计算,加速优化过程。整个流程通过强化学习框架进行迭代优化,最终得到性质优良且具有明确合成路径的分子。
关键创新:MolReAct的关键创新在于将LLM与反应模板相结合,构建了一个合成约束的动作空间。与现有方法相比,MolReAct不需要枚举整个反应网络,而是利用LLM动态地生成候选反应,从而大大降低了计算成本。同时,通过反应模板的约束,保证了生成分子的可合成性,避免了生成化学上无效的结构。
关键设计:MolReAct使用群体相对策略优化(GRPO)作为强化学习算法,旨在提高策略的稳定性和收敛速度。基于SMILES的缓存机制通过存储已访问的分子及其对应的奖励,避免重复计算,加速优化过程。LLM智能体使用的化学分析工具和反应模板库的选择对最终结果有重要影响,需要根据具体的优化任务进行调整。
🖼️ 关键图片
📊 实验亮点
MolReAct在13个Therapeutic Data Commons性质优化任务和一个基于结构的对接任务中取得了显著成果。平均Top-10评分达到0.563,相对于最强的可合成基线,性能提升了10.4%。此外,MolReAct在14个任务中的10个任务上实现了最佳的样本效率,表明其具有快速学习和优化的能力。消融实验进一步验证了工具增强的反应提议和轨迹级别的策略优化对性能提升的贡献。
🎯 应用场景
MolReAct可应用于药物发现领域,加速先导化合物的优化过程。通过生成性质优良且具有明确合成路径的分子,MolReAct能够降低药物研发的成本和时间。该方法还可以应用于其他分子设计领域,例如材料科学和农业化学。
📄 摘要(原文)
Lead optimization in drug discovery requires improving therapeutic properties while ensuring that proposed molecular modifications correspond to feasible synthetic routes. Existing approaches either prioritize property scores without enforcing synthesizability, or rely on expensive enumeration over large reaction networks, while direct application of Large Language Models (LLMs) frequently produces chemically invalid structures. We introduce MolReAct, a framework that formulates lead optimization as a Markov Decision Process over a synthesis-constrained action space defined by validated reaction templates. A tool-augmented LLM agent serves as a dynamic reaction environment that invokes specialized chemical analysis tools to identify reactive sites and propose chemically grounded transformations from matched templates. A policy model trained via Group Relative Policy Optimization (GRPO) selects among these constrained actions to maximize long-term oracle reward across multi-step reaction trajectories. A SMILES-based caching mechanism further reduces end-to-end optimization time by approximately 43%. Across 13 property optimization tasks from the Therapeutic Data Commons and one structure-based docking task, MolReAct achieves an average Top-10 score of 0.563, outperforming the strongest synthesizable baseline by 10.4% in relative improvement, and attains the best sample efficiency on 10 of 14 tasks. Ablations confirm that both tool-augmented reaction proposals and trajectory-level policy optimization contribute complementary gains. By grounding every step in validated reaction templates, MolReAct produces molecules that are property-improved and each accompanied by an explicit synthetic pathway.