Driving Reaction Trajectories via Latent Flow Matching
作者: Yili Shen, Xiangliang Zhang
分类: cs.LG, cs.AI
发布日期: 2026-02-11
💡 一句话要点
提出LatentRxnFlow,通过潜在流匹配建模化学反应轨迹,提升反应预测的透明性和可诊断性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 反应预测 条件流匹配 潜在空间 分子生成 轨迹分析
📋 核心要点
- 现有反应预测模型通常将反应视为从反应物到产物的单次映射,缺乏对反应过程的深入理解。
- LatentRxnFlow将反应建模为连续的潜在轨迹,通过条件流匹配学习潜在动力学,无需中间步骤的监督。
- LatentRxnFlow在USPTO基准上达到SOTA,并能进行轨迹分析,诊断错误,评估不确定性。
📝 摘要(中文)
本文提出了一种新的反应预测范式LatentRxnFlow,它将反应建模为锚定在热力学产物状态的连续潜在轨迹。该方法基于条件流匹配,直接从标准的反应物-产物对中学习时变潜在动力学,无需机制注释或中间标签。LatentRxnFlow在USPTO基准测试中取得了最先进的性能。更重要的是,连续公式揭示了完整的生成轨迹,从而能够进行轨迹级别的诊断,这对于离散或一次性模型来说是难以实现的。潜在轨迹分析可以定位和表征失败模式,并通过门控推理来缓解某些错误。此外,学习轨迹的几何特性提供了认知不确定性的内在信号,有助于优先考虑可靠的可预测反应结果,并标记模糊情况以进行额外的验证。总体而言,LatentRxnFlow将强大的预测准确性与改进的透明性、可诊断性和不确定性感知相结合,从而使反应预测朝着在高通量发现工作流程中更值得信赖的部署方向发展。
🔬 方法详解
问题定义:现有反应预测模型主要存在两个问题。一是将反应视为一步到位的映射,忽略了反应过程的动态性。二是程序化的方法虽然引入了逐步生成,但依赖于机制特定的监督信息、离散的符号编辑以及计算量大的推理过程。这些方法缺乏对反应过程的透明性和可解释性,难以诊断和纠正错误。
核心思路:LatentRxnFlow的核心思路是将化学反应建模为连续的潜在空间轨迹,该轨迹从反应物出发,最终到达热力学稳定的产物状态。通过学习潜在空间中的连续动力学,模型可以生成反应的完整过程,而不仅仅是起始和结束状态。这种连续的表示方式使得分析反应过程、诊断错误以及评估不确定性成为可能。
技术框架:LatentRxnFlow的整体框架基于条件流匹配(Conditional Flow Matching)。它包含一个编码器,将反应物和产物映射到潜在空间;一个时间相关的向量场,定义了潜在空间中的连续动力学;以及一个解码器,将潜在空间中的轨迹映射回分子结构。模型通过最小化预测的向量场与真实向量场之间的差异来学习潜在动力学。推理过程通过求解常微分方程(ODE)来生成潜在轨迹。
关键创新:LatentRxnFlow的关键创新在于将条件流匹配应用于反应预测,从而实现了对反应过程的连续建模。与传统的离散或一步到位的方法相比,LatentRxnFlow能够生成反应的完整轨迹,并提供对反应过程的更深入理解。此外,该方法不需要机制特定的监督信息或中间标签,可以直接从反应物-产物对中学习。
关键设计:LatentRxnFlow的关键设计包括:1) 使用图神经网络(GNN)作为编码器和解码器,以处理分子结构的复杂性;2) 使用时间相关的神经网络来建模潜在空间中的向量场,从而捕捉反应过程的动态性;3) 使用条件流匹配损失函数来训练模型,该损失函数鼓励模型学习与真实反应轨迹一致的潜在动力学;4) 使用门控机制来控制推理过程,从而缓解某些错误。
🖼️ 关键图片
📊 实验亮点
LatentRxnFlow在USPTO基准测试中取得了最先进的性能,超过了现有的离散和一步到位的方法。更重要的是,该模型能够生成反应的完整轨迹,并提供对反应过程的深入理解。通过轨迹分析,可以定位和表征失败模式,并通过门控推理来缓解某些错误。此外,学习轨迹的几何特性提供了认知不确定性的内在信号。
🎯 应用场景
LatentRxnFlow可应用于高通量药物发现、材料设计等领域,加速新分子和材料的发现过程。通过分析反应轨迹,研究人员可以更好地理解反应机理,优化反应条件,并预测反应结果。此外,该模型的不确定性估计能力可以帮助筛选可靠的反应,减少实验验证的成本。
📄 摘要(原文)
Recent advances in reaction prediction have achieved near-saturated accuracy on standard benchmarks (e.g., USPTO), yet most state-of-the-art models formulate the task as a one-shot mapping from reactants to products, offering limited insight into the underlying reaction process. Procedural alternatives introduce stepwise generation but often rely on mechanism-specific supervision, discrete symbolic edits, and computationally expensive inference. In this work, we propose LatentRxnFlow, a new reaction prediction paradigm that models reactions as continuous latent trajectories anchored at the thermodynamic product state. Built on Conditional Flow Matching, our approach learns time-dependent latent dynamics directly from standard reactant-product pairs, without requiring mechanistic annotations or curated intermediate labels. While LatentRxnFlow achieves state-of-the-art performance on USPTO benchmarks, more importantly, the continuous formulation exposes the full generative trajectory, enabling trajectory-level diagnostics that are difficult to realize with discrete or one-shot models. We show that latent trajectory analysis allows us to localize and characterize failure modes and to mitigate certain errors via gated inference. Furthermore, geometric properties of the learned trajectories provide an intrinsic signal of epistemic uncertainty, helping prioritize reliably predictable reaction outcomes and flag ambiguous cases for additional validation. Overall, LatentRxnFlow combines strong predictive accuracy with improved transparency, diagnosability, and uncertainty awareness, moving reaction prediction toward more trustworthy deployment in high-throughput discovery workflows.