Protect$^*$: Steerable Retrosynthesis through Neuro-Symbolic State Encoding
作者: Shreyas Vinaya Sathyanarayana, Shah Rahil Kirankumar, Sharanabasava D. Hiremath, Bharath Ramsundar
分类: q-bio.QM, cs.AI, cs.CL, cs.LG, q-bio.BM
发布日期: 2026-02-13
💡 一句话要点
Protect$^*$: 提出神经符号框架,通过可控的逆合成分析指导LLM生成化学反应路径。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 逆合成分析 大型语言模型 神经符号推理 化学信息学 保护基团 主动状态跟踪 药物发现
📋 核心要点
- 现有LLM在逆合成分析中缺乏对化学反应位点的精确控制,容易生成无效或不良的合成路径。
- Protect$^*$提出一种神经符号框架,结合规则推理和LLM的生成能力,通过主动状态跟踪注入硬符号约束。
- 通过复杂天然产物的案例研究,验证了该方法在逆合成分析中能够实现可靠的专家级自主性,并发现了红霉素B的新合成路径。
📝 摘要(中文)
大型语言模型(LLM)在逆合成分析等科学领域展现出巨大潜力,但常常缺乏在复杂问题空间中进行精确控制的能力,容易出错。一个关键挑战是引导LLM避免分子上特定的、化学敏感的位点——不受约束的生成可能导致无效或不良的合成路径。本文介绍Protect$^*$,一个神经符号框架,它将大型语言模型(LLM)的生成能力建立在严格的化学逻辑之上。该方法结合了自动化的、基于规则的推理(使用包含55+ SMARTS模式和40+特征保护基团的综合数据库)与神经模型的生成直觉。系统通过混合架构运行:一种“自动模式”,其中符号逻辑确定性地识别和保护反应位点;以及一种“人机协作模式”,整合专家策略约束。通过“主动状态跟踪”,我们通过连接到规范原子映射的专用保护状态,将硬符号约束注入到神经推理过程中。我们通过复杂天然产物的案例研究(包括发现红霉素B的新型合成途径)证明了这种神经符号方法,表明将神经生成建立在符号逻辑之上能够实现可靠的、专家级的自主性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在逆合成分析中,无法有效避免分子上特定化学敏感位点的问题。现有方法,即直接使用LLM进行生成,容易产生无效或不良的合成路径,缺乏对化学反应逻辑的精确控制。
核心思路:论文的核心思路是将LLM的生成能力与基于规则的符号推理相结合,构建一个神经符号框架。通过符号推理来识别和保护分子上的反应位点,并将这些约束信息注入到LLM的生成过程中,从而引导LLM生成符合化学逻辑的合成路径。
技术框架:Protect$^*$框架包含两个主要模式:自动模式和人机协作模式。在自动模式下,系统使用包含55+ SMARTS模式和40+特征保护基团的数据库,通过符号逻辑自动识别和保护反应位点。在人机协作模式下,系统允许专家手动添加策略约束。框架通过“主动状态跟踪”机制,将符号约束信息(即保护状态)与LLM的原子映射连接起来,从而在神经推理过程中强制执行这些约束。
关键创新:该方法最重要的创新点在于将符号推理与神经生成相结合,通过“主动状态跟踪”机制将硬符号约束注入到LLM的生成过程中。这种神经符号融合的方式,使得LLM能够在生成合成路径时,同时考虑到化学反应的逻辑和约束,从而提高了生成结果的可靠性和有效性。与现有方法相比,Protect$^*$能够更好地控制LLM的生成过程,避免生成无效或不良的合成路径。
关键设计:论文中关键的设计包括:1) 构建包含大量SMARTS模式和保护基团信息的数据库,用于符号推理;2) 设计“主动状态跟踪”机制,将符号约束信息与LLM的原子映射连接起来;3) 实现自动模式和人机协作模式,允许用户根据需要灵活地控制生成过程。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
论文通过对复杂天然产物(包括红霉素B)的案例研究,验证了Protect$^$框架的有效性。实验结果表明,该方法能够发现红霉素B的新型合成途径,并生成符合化学逻辑的合成路径。与直接使用LLM相比,Protect$^$能够更好地控制生成过程,避免生成无效或不良的合成路径,从而提高了合成路径设计的可靠性和效率。具体的性能数据和提升幅度在论文中未详细给出,属于未知信息。
🎯 应用场景
该研究成果可应用于药物发现、材料科学等领域,加速新分子和新材料的合成路径设计。通过结合LLM的生成能力和化学逻辑的约束,可以更高效地发现潜在的合成路线,降低实验成本,并为化学家提供更强大的辅助工具。未来,该方法有望扩展到更复杂的化学反应和分子结构,推动化学合成领域的自动化和智能化。
📄 摘要(原文)
Large Language Models (LLMs) have shown remarkable potential in scientific domains like retrosynthesis; yet, they often lack the fine-grained control necessary to navigate complex problem spaces without error. A critical challenge is directing an LLM to avoid specific, chemically sensitive sites on a molecule - a task where unconstrained generation can lead to invalid or undesirable synthetic pathways. In this work, we introduce Protect$^*$, a neuro-symbolic framework that grounds the generative capabilities of Large Language Models (LLMs) in rigorous chemical logic. Our approach combines automated rule-based reasoning - using a comprehensive database of 55+ SMARTS patterns and 40+ characterized protecting groups - with the generative intuition of neural models. The system operates via a hybrid architecture: an
automatic mode'' where symbolic logic deterministically identifies and guards reactive sites, and ahuman-in-the-loop mode'' that integrates expert strategic constraints. Through ``active state tracking,'' we inject hard symbolic constraints into the neural inference process via a dedicated protection state linked to canonical atom maps. We demonstrate this neuro-symbolic approach through case studies on complex natural products, including the discovery of a novel synthetic pathway for Erythromycin B, showing that grounding neural generation in symbolic logic enables reliable, expert-level autonomy.