Protect$^*$: Steerable Retrosynthesis through Neuro-Symbolic State Encoding

作者: Shreyas Vinaya Sathyanarayana, Shah Rahil Kirankumar, Sharanabasava D. Hiremath, Bharath Ramsundar

分类: q-bio.QM, cs.AI, cs.CL, cs.LG, q-bio.BM

发布日期: 2026-02-13

💡 一句话要点

Protect$^*$: 提出神经符号框架，通过可控的逆合成分析指导LLM生成化学反应路径。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 逆合成分析 大型语言模型 神经符号推理 化学信息学 保护基团 主动状态跟踪 药物发现

📋 核心要点

现有LLM在逆合成分析中缺乏对化学反应位点的精确控制，容易生成无效或不良的合成路径。
Protect$^*$提出一种神经符号框架，结合规则推理和LLM的生成能力，通过主动状态跟踪注入硬符号约束。
通过复杂天然产物的案例研究，验证了该方法在逆合成分析中能够实现可靠的专家级自主性，并发现了红霉素B的新合成路径。

📝 摘要（中文）

大型语言模型（LLM）在逆合成分析等科学领域展现出巨大潜力，但常常缺乏在复杂问题空间中进行精确控制的能力，容易出错。一个关键挑战是引导LLM避免分子上特定的、化学敏感的位点——不受约束的生成可能导致无效或不良的合成路径。本文介绍Protect$^*$，一个神经符号框架，它将大型语言模型（LLM）的生成能力建立在严格的化学逻辑之上。该方法结合了自动化的、基于规则的推理（使用包含55+ SMARTS模式和40+特征保护基团的综合数据库）与神经模型的生成直觉。系统通过混合架构运行：一种“自动模式”，其中符号逻辑确定性地识别和保护反应位点；以及一种“人机协作模式”，整合专家策略约束。通过“主动状态跟踪”，我们通过连接到规范原子映射的专用保护状态，将硬符号约束注入到神经推理过程中。我们通过复杂天然产物的案例研究（包括发现红霉素B的新型合成途径）证明了这种神经符号方法，表明将神经生成建立在符号逻辑之上能够实现可靠的、专家级的自主性。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在逆合成分析中，无法有效避免分子上特定化学敏感位点的问题。现有方法，即直接使用LLM进行生成，容易产生无效或不良的合成路径，缺乏对化学反应逻辑的精确控制。

核心思路：论文的核心思路是将LLM的生成能力与基于规则的符号推理相结合，构建一个神经符号框架。通过符号推理来识别和保护分子上的反应位点，并将这些约束信息注入到LLM的生成过程中，从而引导LLM生成符合化学逻辑的合成路径。

技术框架：Protect$^*$框架包含两个主要模式：自动模式和人机协作模式。在自动模式下，系统使用包含55+ SMARTS模式和40+特征保护基团的数据库，通过符号逻辑自动识别和保护反应位点。在人机协作模式下，系统允许专家手动添加策略约束。框架通过“主动状态跟踪”机制，将符号约束信息（即保护状态）与LLM的原子映射连接起来，从而在神经推理过程中强制执行这些约束。

关键创新：该方法最重要的创新点在于将符号推理与神经生成相结合，通过“主动状态跟踪”机制将硬符号约束注入到LLM的生成过程中。这种神经符号融合的方式，使得LLM能够在生成合成路径时，同时考虑到化学反应的逻辑和约束，从而提高了生成结果的可靠性和有效性。与现有方法相比，Protect$^*$能够更好地控制LLM的生成过程，避免生成无效或不良的合成路径。

关键设计：论文中关键的设计包括：1) 构建包含大量SMARTS模式和保护基团信息的数据库，用于符号推理；2) 设计“主动状态跟踪”机制，将符号约束信息与LLM的原子映射连接起来；3) 实现自动模式和人机协作模式，允许用户根据需要灵活地控制生成过程。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

论文通过对复杂天然产物（包括红霉素B）的案例研究，验证了Protect$^$框架的有效性。实验结果表明，该方法能够发现红霉素B的新型合成途径，并生成符合化学逻辑的合成路径。与直接使用LLM相比，Protect$^$能够更好地控制生成过程，避免生成无效或不良的合成路径，从而提高了合成路径设计的可靠性和效率。具体的性能数据和提升幅度在论文中未详细给出，属于未知信息。

🎯 应用场景

该研究成果可应用于药物发现、材料科学等领域，加速新分子和新材料的合成路径设计。通过结合LLM的生成能力和化学逻辑的约束，可以更高效地发现潜在的合成路线，降低实验成本，并为化学家提供更强大的辅助工具。未来，该方法有望扩展到更复杂的化学反应和分子结构，推动化学合成领域的自动化和智能化。

📄 摘要（原文）

Large Language Models (LLMs) have shown remarkable potential in scientific domains like retrosynthesis; yet, they often lack the fine-grained control necessary to navigate complex problem spaces without error. A critical challenge is directing an LLM to avoid specific, chemically sensitive sites on a molecule - a task where unconstrained generation can lead to invalid or undesirable synthetic pathways. In this work, we introduce Protect$^*$, a neuro-symbolic framework that grounds the generative capabilities of Large Language Models (LLMs) in rigorous chemical logic. Our approach combines automated rule-based reasoning - using a comprehensive database of 55+ SMARTS patterns and 40+ characterized protecting groups - with the generative intuition of neural models. The system operates via a hybrid architecture: an automatic mode'' where symbolic logic deterministically identifies and guards reactive sites, and ahuman-in-the-loop mode'' that integrates expert strategic constraints. Through ``active state tracking,'' we inject hard symbolic constraints into the neural inference process via a dedicated protection state linked to canonical atom maps. We demonstrate this neuro-symbolic approach through case studies on complex natural products, including the discovery of a novel synthetic pathway for Erythromycin B, showing that grounding neural generation in symbolic logic enables reliable, expert-level autonomy.

Protect$^*$: Steerable Retrosynthesis through Neuro-Symbolic State Encoding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理