Reinforced Reasoning for End-to-End Retrosynthetic Planning

📄 arXiv: 2603.29723v1 📥 PDF

作者: Chenyang Zuo, Siqi Fan, Yizhen Luo, Zaiqing Nie

分类: cs.AI

发布日期: 2026-03-31


💡 一句话要点

提出ReTriP,用于端到端逆合成规划,提升长程规划的鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 逆合成规划 端到端生成 强化学习 思维链推理 分子表示

📋 核心要点

  1. 现有逆合成规划方法依赖混合框架,缺乏局部转换与全局目标的逻辑一致性。
  2. ReTriP通过端到端生成框架,将逆合成重构为思维链推理任务,嵌入战略远见。
  3. ReTriP采用渐进式训练,结合推理蒸馏和强化学习,在RetroBench上取得SOTA性能。

📝 摘要(中文)

逆合成规划是有机化学中的一项基础任务,但由于其组合复杂性而极具挑战。为了解决这个问题,传统方法通常依赖于混合框架,将单步预测与外部搜索启发式方法相结合,不可避免地破坏了局部分子转换与全局规划目标之间的逻辑一致性。为了弥合这一差距,并将复杂的战略远见直接嵌入到模型的化学推理中,我们引入了ReTriP,这是一个端到端生成框架,它将逆合成重新定义为直接的思维链推理任务。我们建立了一个路径连贯的分子表示,并采用渐进式训练课程,从推理蒸馏过渡到具有可验证奖励的强化学习,有效地将逐步生成与实际路线效用对齐。在RetroBench上的实证评估表明,ReTriP实现了最先进的性能,与混合基线相比,在长程规划中表现出卓越的鲁棒性。

🔬 方法详解

问题定义:论文旨在解决逆合成规划中,传统方法依赖单步预测和外部搜索启发式,导致局部分子转换与全局规划目标逻辑不一致的问题。现有方法难以进行有效的长程规划,缺乏对全局路线效用的直接优化。

核心思路:论文的核心思路是将逆合成规划建模为直接的思维链推理任务,通过端到端生成的方式,让模型直接学习从目标分子到起始原料的完整合成路径。通过强化学习,模型能够根据最终合成路线的质量进行自我优化,从而实现更有效的全局规划。

技术框架:ReTriP框架包含以下主要模块:1) 路径连贯的分子表示:用于编码分子结构和反应信息,确保推理过程中的信息一致性。2) 基于Transformer的生成模型:用于逐步生成逆合成反应序列,模拟化学家的推理过程。3) 渐进式训练课程:包括推理蒸馏和强化学习两个阶段,逐步提升模型的推理能力和规划能力。

关键创新:ReTriP的关键创新在于其端到端的生成式框架,以及将强化学习引入逆合成规划中。与传统方法相比,ReTriP能够直接优化全局路线效用,避免了局部最优解,从而实现更有效的长程规划。此外,路径连贯的分子表示也保证了推理过程中的信息一致性。

关键设计:在训练方面,ReTriP首先使用推理蒸馏,利用专家知识初始化模型参数。然后,采用强化学习,使用可验证的奖励函数(例如合成路线的成本、产率等)来优化模型。奖励函数的设计至关重要,需要能够准确反映合成路线的质量。在模型结构方面,使用了Transformer架构,并针对化学反应的特点进行了调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReTriP在RetroBench数据集上取得了最先进的性能,证明了其在逆合成规划方面的有效性。实验结果表明,ReTriP在长程规划中表现出卓越的鲁棒性,优于传统的混合基线方法。具体性能提升数据在论文中给出,表明ReTriP能够生成更有效、更经济的合成路线。

🎯 应用场景

ReTriP可应用于药物发现、材料科学等领域,加速新分子的合成路线设计。通过自动化逆合成规划,可以降低实验成本,缩短研发周期,并帮助化学家发现更优的合成路径。该研究的未来影响在于推动化学合成的智能化和自动化。

📄 摘要(原文)

Retrosynthetic planning is a fundamental task in organic chemistry, yet remains challenging due to its combinatorial complexity. To address this, conventional approaches typically rely on hybrid frameworks that combine single-step predictions with external search heuristics, inevitably fracturing the logical coherence between local molecular transformations and global planning objectives. To bridge this gap and embed sophisticated strategic foresight directly into the model's chemical reasoning, we introduce ReTriP, an end-to-end generative framework that reformulates retrosynthesis as a direct Chain-of-Thought reasoning task. We establish a path-coherent molecular representation and employ a progressive training curriculum that transitions from reasoning distillation to reinforcement learning with verifiable rewards, effectively aligning stepwise generation with practical route utility. Empirical evaluation on RetroBench demonstrates that ReTriP achieves state-of-the-art performance, exhibiting superior robustness in long-horizon planning compared to hybrid baselines.