Pseudodata-guided Invariant Representation Learning Boosts the Out-of-Distribution Generalization in Enzymatic Kinetic Parameter Prediction

📄 arXiv: 2601.07261v1 📥 PDF

作者: Haomin Wu, Zhiwei Nie, Hongyu Zhang, Zhixiang Ren

分类: cs.LG, cs.AI, q-bio.QM

发布日期: 2026-01-12


💡 一句话要点

O$^2$DENet通过伪数据引导的不变表示学习提升酶促动力学参数预测的OOD泛化能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 酶动力学预测 分布外泛化 不变表示学习 伪数据增强 酶工程

📋 核心要点

  1. 现有酶-底物相互作用预测模型在面对序列差异大的样本时,泛化能力不足,限制了其在实际生物学场景中的应用。
  2. O$^2$DENet通过引入生物和化学信息驱动的扰动增强,并学习酶-底物对的不变表示,从而提升模型的OOD泛化能力。
  3. 实验表明,O$^2$DENet能显著提升现有ESI模型在OOD基准测试上的预测性能,在准确性和鲁棒性方面均达到最优。

📝 摘要(中文)

精确预测酶动力学参数对于理解催化机制和指导酶工程至关重要。然而,现有的基于深度学习的酶-底物相互作用(ESI)预测器在序列差异大的、分布外(OOD)的情况下常常表现出性能下降,限制了在生物学相关扰动下的鲁棒性。我们提出了O$^2$DENet,一个轻量级的、即插即用的模块,通过生物和化学信息驱动的扰动增强和不变表示学习来增强OOD泛化能力。O$^2$DENet引入了酶-底物扰动,并强制原始和增强的酶-底物对表示之间的一致性,以鼓励对分布偏移的不变性。当与代表性的ESI模型集成时,O$^2$DENet在严格的基于序列同一性的OOD基准测试中,始终提高$k_{cat}$和$K_m$的预测性能,在准确性和鲁棒性指标方面,在评估的方法中实现了最先进的结果。总的来说,O$^2$DENet为增强数据驱动的酶动力学预测器在实际酶工程应用中的稳定性和可部署性提供了一种通用且有效的策略。

🔬 方法详解

问题定义:现有基于深度学习的酶-底物相互作用(ESI)预测器在预测酶动力学参数(如$k_{cat}$和$K_m$)时,对序列差异较大的OOD样本泛化能力差,导致在实际酶工程应用中表现不稳定。现有方法难以应对生物学上常见的扰动,限制了模型的鲁棒性和可部署性。

核心思路:O$^2$DENet的核心思路是通过引入伪数据(即通过生物和化学信息驱动的扰动增强生成的样本)来训练模型,并强制原始样本和增强样本的表示之间的一致性,从而学习对分布偏移具有不变性的表示。这种方法旨在使模型能够更好地泛化到未见过的OOD样本,提高模型的鲁棒性。

技术框架:O$^2$DENet是一个即插即用的模块,可以集成到现有的ESI预测模型中。其主要流程包括:1) 对原始的酶-底物对进行扰动增强,生成伪数据;2) 将原始数据和伪数据输入到ESI模型中,得到各自的表示;3) 通过一致性损失函数,强制原始数据和伪数据的表示尽可能接近,从而学习不变表示。

关键创新:O$^2$DENet的关键创新在于其伪数据生成方式和不变表示学习策略。它不是简单地使用数据增强技术,而是利用生物和化学领域的先验知识,生成更具信息量的伪数据,从而更好地模拟实际应用中可能遇到的扰动。此外,通过一致性损失函数,O$^2$DENet能够有效地学习对这些扰动具有不变性的表示,从而提高模型的泛化能力。

关键设计:O$^2$DENet的关键设计包括:1) 扰动增强策略:具体如何根据生物和化学信息对酶-底物对进行扰动,例如,改变底物的化学结构或酶的序列;2) 一致性损失函数:如何定义原始数据和伪数据表示之间的一致性,例如,可以使用均方误差或对比损失;3) 集成方式:如何将O$^2$DENet模块集成到现有的ESI模型中,例如,可以在模型的输入层或中间层插入O$^2$DENet。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

O$^2$DENet在多个基于序列同一性的OOD基准测试中,显著提升了现有ESI模型的预测性能。例如,在$k_{cat}$和$K_m$的预测任务中,O$^2$DENet在准确性和鲁棒性指标方面均优于其他方法,达到了最先进水平。实验结果表明,O$^2$DENet能够有效地提高模型对序列差异较大的样本的泛化能力。

🎯 应用场景

O$^2$DENet可应用于酶工程、药物发现和合成生物学等领域。通过提高酶动力学参数预测的准确性和鲁棒性,可以加速酶的理性设计和优化,从而开发出更高效、更稳定的生物催化剂。此外,该方法也有助于理解酶的作用机制,为药物设计提供新的思路。

📄 摘要(原文)

Accurate prediction of enzyme kinetic parameters is essential for understanding catalytic mechanisms and guiding enzyme engineering.However, existing deep learning-based enzyme-substrate interaction (ESI) predictors often exhibit performance degradation on sequence-divergent, out-of-distribution (OOD) cases, limiting robustness under biologically relevant perturbations.We propose O$^2$DENet, a lightweight, plug-and-play module that enhances OOD generalization via biologically and chemically informed perturbation augmentation and invariant representation learning.O$^2$DENet introduces enzyme-substrate perturbations and enforces consistency between original and augmented enzyme-substrate-pair representations to encourage invariance to distributional shifts.When integrated with representative ESI models, O$^2$DENet consistently improves predictive performance for both $k_{cat}$ and $K_m$ across stringent sequence-identity-based OOD benchmarks, achieving state-of-the-art results among the evaluated methods in terms of accuracy and robustness metrics.Overall, O$^2$DENet provides a general and effective strategy to enhance the stability and deployability of data-driven enzyme kinetics predictors for real-world enzyme engineering applications.