Multimodal Protein Language Models for Enzyme Kinetic Parameters: From Substrate Recognition to Conformational Adaptation

📄 arXiv: 2603.12845v1 📥 PDF

作者: Fei Wang, Xinye Zheng, Kun Li, Yanyan Wei, Yuxin Liu, Ganpeng Hu, Tong Bao, Jingwen Yang

分类: cs.CV

发布日期: 2026-03-13

备注: Accepted by CVPR 2026


💡 一句话要点

提出ERBA模型,通过多模态蛋白质语言模型预测酶的动力学参数,提升酶与底物结合效率预测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 酶动力学参数预测 多模态学习 蛋白质语言模型 分子识别 构象适应

📋 核心要点

  1. 现有酶动力学参数预测方法忽略了催化的阶段性,将酶与底物的相互作用简化为静态兼容性问题。
  2. ERBA模型通过分子识别交叉注意力(MRCA)和几何感知混合专家(G-MoE)分阶段注入底物信息和活性位点结构。
  3. 实验结果表明,ERBA模型在多个PLM骨干上均取得了持续的性能提升,并具有更强的分布外泛化能力。

📝 摘要(中文)

酶动力学参数预测旨在量化酶在特定生化条件下催化特定底物的效率。关键参数如转换数($k_ ext{cat}$)、米氏常数($K_ ext{m}$)和抑制常数($K_ ext{i}$)共同取决于酶序列、底物化学性质以及活性位点在结合过程中的构象适应。现有方法通常简化此过程为酶和底物之间的静态兼容性问题,通过浅层操作融合它们的表示并回归单个值,忽略了催化的阶段性,包括底物识别和构象适应。本文将动力学预测重新定义为分阶段的多模态条件建模问题,并引入酶-反应桥接适配器(ERBA),通过微调将跨模态信息注入蛋白质语言模型(PLM),同时保留其生化先验知识。ERBA分两个阶段进行条件处理:分子识别交叉注意力(MRCA)首先将底物信息注入酶表示以捕获特异性;几何感知混合专家(G-MoE)然后整合活性位点结构,并将样本路由到口袋专业专家以反映诱导契合。为了保持语义保真度,酶-底物分布对齐(ESDA)在再生核希尔伯特空间中强制执行PLM流形内的分布一致性。在三个动力学终点和多个PLM骨干上的实验表明,与仅序列和浅层融合基线相比,ERBA提供了持续的增益和更强的分布外性能,为可扩展的动力学预测提供了一条生物学基础的途径,并为添加辅因子、突变和时间分辨结构线索奠定了基础。

🔬 方法详解

问题定义:酶动力学参数预测旨在量化酶在特定生化条件下催化特定底物的效率。现有方法通常将酶和底物之间的相互作用简化为静态兼容性问题,忽略了催化的阶段性,即底物识别和构象适应,导致预测精度受限。此外,现有方法通常采用浅层融合策略,无法充分利用蛋白质语言模型(PLM)中蕴含的丰富生化先验知识。

核心思路:论文的核心思路是将酶动力学参数预测重新定义为分阶段的多模态条件建模问题。通过引入酶-反应桥接适配器(ERBA),将底物信息和活性位点结构逐步注入到PLM中,从而更好地模拟催化过程中的底物识别和构象适应。这种分阶段的建模方式能够更准确地捕捉酶与底物之间的复杂相互作用。

技术框架:ERBA模型主要包含三个模块:分子识别交叉注意力(MRCA)、几何感知混合专家(G-MoE)和酶-底物分布对齐(ESDA)。首先,MRCA模块将底物信息注入到酶的表示中,以捕获酶对特定底物的识别能力。然后,G-MoE模块整合活性位点结构,并将样本路由到不同的专家网络,以反映酶在结合底物时的构象变化。最后,ESDA模块通过分布对齐,保持PLM流形内的语义一致性。

关键创新:ERBA模型的关键创新在于其分阶段的多模态条件建模框架。与传统的浅层融合方法不同,ERBA模型能够逐步地将底物信息和活性位点结构融入到PLM中,从而更准确地模拟催化过程。此外,G-MoE模块的设计能够有效地捕捉酶在结合底物时的构象变化,进一步提升了预测精度。

关键设计:MRCA模块采用交叉注意力机制,将底物表示作为query,酶表示作为key和value,从而实现底物信息向酶表示的注入。G-MoE模块包含多个专家网络,每个专家网络专门处理特定类型的活性位点结构。ESDA模块采用再生核希尔伯特空间(RKHS)中的最大均值差异(MMD)作为损失函数,以强制执行酶和底物分布的一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ERBA模型在三个动力学终点($k_ ext{cat}$、$K_ ext{m}$和$K_ ext{i}$)和多个PLM骨干上均取得了持续的性能提升。与仅序列和浅层融合基线相比,ERBA模型在分布外数据集上表现出更强的泛化能力,表明其能够更好地捕捉酶与底物之间的本质联系。

🎯 应用场景

该研究成果可应用于酶工程、药物设计和合成生物学等领域。通过准确预测酶的动力学参数,可以加速酶的优化和改造,设计更高效的生物催化剂,并为药物开发提供更精确的靶标信息。此外,该方法还可以用于预测酶在不同条件下的活性,从而更好地理解酶的功能和调控机制。

📄 摘要(原文)

Predicting enzyme kinetic parameters quantifies how efficiently an enzyme catalyzes a specific substrate under defined biochemical conditions. Canonical parameters such as the turnover number ($k_\text{cat}$), Michaelis constant ($K_\text{m}$), and inhibition constant ($K_\text{i}$) depend jointly on the enzyme sequence, the substrate chemistry, and the conformational adaptation of the active site during binding. Many learning pipelines simplify this process to a static compatibility problem between the enzyme and substrate, fusing their representations through shallow operations and regressing a single value. Such formulations overlook the staged nature of catalysis, which involves both substrate recognition and conformational adaptation. In this regard, we reformulate kinetic prediction as a staged multimodal conditional modeling problem and introduce the Enzyme-Reaction Bridging Adapter (ERBA), which injects cross-modal information via fine-tuning into Protein Language Models (PLMs) while preserving their biochemical priors. ERBA performs conditioning in two stages: Molecular Recognition Cross-Attention (MRCA) first injects substrate information into the enzyme representation to capture specificity; Geometry-aware Mixture-of-Experts (G-MoE) then integrates active-site structure and routes samples to pocket-specialized experts to reflect induced fit. To maintain semantic fidelity, Enzyme-Substrate Distribution Alignment (ESDA) enforces distributional consistency within the PLM manifold in a reproducing kernel Hilbert space. Experiments across three kinetic endpoints and multiple PLM backbones, ERBA delivers consistent gains and stronger out-of-distribution performance compared with sequence-only and shallow-fusion baselines, offering a biologically grounded route to scalable kinetic prediction and a foundation for adding cofactors, mutations, and time-resolved structural cues.