ReACT-Drug: Reaction-Template Guided Reinforcement Learning for de novo Drug Design

📄 arXiv: 2512.20958v1 📥 PDF

作者: R Yadunandan, Nimisha Ghosh

分类: cs.LG, cs.AI

发布日期: 2025-12-24

🔗 代码/项目: GITHUB


💡 一句话要点

ReACT-Drug:基于反应模板引导的强化学习用于全新药物设计

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 药物设计 强化学习 反应模板 蛋白结构 分子生成

📋 核心要点

  1. 传统药物设计方法难以有效探索巨大的化学空间,寻找具有良好性质的候选药物。
  2. ReACT-Drug利用强化学习,结合蛋白结构信息和反应模板,引导药物分子生成过程。
  3. 实验表明,ReACT-Drug生成的药物候选物具有良好的结合亲和力、合成可及性和化学有效性。

📝 摘要(中文)

从头药物设计是现代药物开发的关键组成部分,然而,在广阔的化学空间中找到具有合成可及性和高亲和力的候选药物仍然是一个巨大的挑战。强化学习(RL)通过实现多目标优化和探索新的化学空间来增强这一过程——这是传统监督学习方法所缺乏的能力。本文介绍了一个完全集成、与靶标无关的基于强化学习的分子设计框架ReACT-Drug。与需要靶标特异性微调的模型不同,ReACT-Drug利用ESM-2蛋白嵌入,通过通用方法从蛋白质数据库(PDB)等知识库中识别给定靶标的相似蛋白。然后,将这些蛋白质对应的已知药物配体分解,以初始化基于片段的搜索空间,从而使agent偏向于生物学相关的子空间。对于每个这样的片段,该流程采用近端策略优化(PPO) agent,通过基于化学有效反应模板转换的动态动作空间引导ChemBERTa编码的分子。这产生了具有竞争性结合亲和力和高合成可及性的从头药物候选物,同时根据MOSES基准测试确保100%的化学有效性和新颖性。该架构突出了整合结构生物学、深度表征学习和化学合成规则以自动化和加速合理药物设计的潜力。数据集和代码可在https://github.com/YadunandanRaman/ReACT-Drug/获得。

🔬 方法详解

问题定义:论文旨在解决从头药物设计中,如何在巨大的化学空间中高效地生成具有良好结合亲和力、合成可及性和化学有效性的新分子的问题。现有方法,如基于规则或片段组装的方法,难以探索新的化学空间,而传统的机器学习方法则缺乏对合成可及性的考虑。

核心思路:论文的核心思路是利用强化学习,通过奖励函数引导agent生成具有期望性质的分子。同时,利用蛋白结构信息和反应模板来约束搜索空间,提高生成分子的生物相关性和合成可行性。这样既能探索新的化学空间,又能保证生成分子的质量。

技术框架:ReACT-Drug框架主要包含以下几个模块:1) 利用ESM-2蛋白嵌入,从PDB中寻找与目标蛋白相似的蛋白;2) 将相似蛋白的已知配体分解为片段,作为初始搜索空间;3) 使用PPO agent,通过基于反应模板的动作空间逐步扩展分子;4) 使用ChemBERTa编码分子,并根据奖励函数(结合亲和力、合成可及性等)更新策略。

关键创新:该方法最重要的创新点在于将强化学习与反应模板相结合,实现对化学空间的有效探索。同时,利用蛋白结构信息来引导药物设计,提高了生成分子的生物相关性。与现有方法相比,ReACT-Drug能够生成具有更高质量和新颖性的药物候选物。

关键设计:ReACT-Drug的关键设计包括:1) 使用ESM-2进行蛋白嵌入,以寻找相似蛋白;2) 定义基于反应模板的动作空间,保证化学有效性;3) 设计包含结合亲和力、合成可及性等多目标奖励函数;4) 使用PPO算法进行策略优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReACT-Drug在药物设计任务中表现出优异的性能,能够生成具有竞争性结合亲和力、高合成可及性和100%化学有效性的新分子。与MOSES基准测试相比,ReACT-Drug在生成分子的新颖性方面表现出色,证明了其探索新化学空间的能力。

🎯 应用场景

ReACT-Drug可应用于多种药物发现场景,例如针对特定靶点的全新药物设计、已有药物的结构优化、以及针对新兴疾病的快速药物筛选。该方法能够加速药物发现进程,降低研发成本,并为解决未满足的医疗需求提供新的可能性。

📄 摘要(原文)

De novo drug design is a crucial component of modern drug development, yet navigating the vast chemical space to find synthetically accessible, high-affinity candidates remains a significant challenge. Reinforcement Learning (RL) enhances this process by enabling multi-objective optimization and exploration of novel chemical space - capabilities that traditional supervised learning methods lack. In this work, we introduce \textbf{ReACT-Drug}, a fully integrated, target-agnostic molecular design framework based on Reinforcement Learning. Unlike models requiring target-specific fine-tuning, ReACT-Drug utilizes a generalist approach by leveraging ESM-2 protein embeddings to identify similar proteins for a given target from a knowledge base such as Protein Data Base (PDB). Thereafter, the known drug ligands corresponding to such proteins are decomposed to initialize a fragment-based search space, biasing the agent towards biologically relevant subspaces. For each such fragment, the pipeline employs a Proximal Policy Optimization (PPO) agent guiding a ChemBERTa-encoded molecule through a dynamic action space of chemically valid, reaction-template-based transformations. This results in the generation of \textit{de novo} drug candidates with competitive binding affinities and high synthetic accessibility, while ensuring 100\% chemical validity and novelty as per MOSES benchmarking. This architecture highlights the potential of integrating structural biology, deep representation learning, and chemical synthesis rules to automate and accelerate rational drug design. The dataset and code are available at https://github.com/YadunandanRaman/ReACT-Drug/.