ReactEmbed: A Cross-Domain Framework for Protein-Molecule Representation Learning via Biochemical Reaction Networks
作者: Amitay Sicherman, Kira Radinsky
分类: cs.LG
发布日期: 2025-01-30 (更新: 2025-02-06)
🔗 代码/项目: GITHUB
💡 一句话要点
ReactEmbed:通过生化反应网络进行蛋白质-分子跨域表征学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 蛋白质表征学习 分子表征学习 对比学习 生化反应网络 跨域学习
📋 核心要点
- 现有方法侧重于单模态数据,难以捕捉蛋白质和分子间复杂的生化关系。
- ReactEmbed利用生化反应数据和预训练嵌入,通过对比学习构建统一嵌入空间。
- 实验表明,ReactEmbed在多个任务上超越现有模型,并在药物递送中实现零样本预测。
📝 摘要(中文)
计算生物学和药物发现面临的挑战在于创建能够捕捉蛋白质和分子内在属性及相互作用的全面表征。传统方法通常侧重于单模态数据,如蛋白质序列或分子结构,限制了它们捕捉复杂生化关系的能力。本研究通过整合包含分子和蛋白质之间相互作用的生化反应数据来增强这些表征。通过利用反应数据以及来自最先进蛋白质和分子模型的预训练嵌入,我们开发了一种名为ReactEmbed的新方法,该方法通过对比学习创建统一的嵌入空间。我们在各种任务中评估ReactEmbed,包括药物-靶标相互作用、蛋白质-蛋白质相互作用、蛋白质性质预测和分子性质预测,始终超越所有当前最先进的模型。值得注意的是,我们通过在基于脂质纳米颗粒的药物递送中的成功实施,展示了ReactEmbed的实际效用,从而能够对蛋白质-纳米颗粒复合物的血脑屏障渗透性进行零样本预测。代码和全面的反应对数据库可在GitHub上公开使用。
🔬 方法详解
问题定义:论文旨在解决蛋白质和分子表征学习中,现有方法无法有效整合生物化学反应信息的问题。传统方法主要依赖蛋白质序列或分子结构等单模态数据,忽略了蛋白质和分子之间通过生化反应产生的复杂关联,导致表征能力受限。现有方法难以准确预测药物-靶标相互作用、蛋白质-蛋白质相互作用等重要生物学现象。
核心思路:ReactEmbed的核心思路是将蛋白质和分子的表征学习与它们参与的生化反应网络相结合。通过利用已有的蛋白质和分子预训练嵌入,并结合反应数据,构建一个统一的嵌入空间,使得在反应中相互作用的蛋白质和分子在嵌入空间中更加接近。这种方法能够有效地捕捉蛋白质和分子之间的复杂关系,从而提高表征的质量。
技术框架:ReactEmbed的整体框架包括以下几个主要步骤:1) 利用预训练的蛋白质和分子模型(例如,蛋白质序列模型和分子图神经网络)生成初始嵌入;2) 构建蛋白质-分子反应对数据集,该数据集包含蛋白质和分子之间发生反应的信息;3) 使用对比学习方法,训练ReactEmbed模型,使得在同一反应对中的蛋白质和分子嵌入更加接近,而不在同一反应对中的蛋白质和分子嵌入更加远离;4) 将训练好的ReactEmbed模型应用于各种下游任务,例如药物-靶标相互作用预测、蛋白质-蛋白质相互作用预测等。
关键创新:ReactEmbed的关键创新在于将对比学习应用于蛋白质和分子的跨域表征学习。通过构建蛋白质-分子反应对数据集,并利用对比学习的目标函数,ReactEmbed能够有效地学习蛋白质和分子之间通过生化反应产生的关联。与传统方法相比,ReactEmbed能够更好地捕捉蛋白质和分子之间的复杂关系,从而提高表征的质量。
关键设计:ReactEmbed的关键设计包括:1) 使用预训练的蛋白质和分子嵌入作为初始表征,从而利用已有的知识;2) 构建高质量的蛋白质-分子反应对数据集,该数据集包含丰富的反应信息;3) 使用对比学习的目标函数,例如InfoNCE损失,来训练ReactEmbed模型;4) 通过调整对比学习的温度参数,控制正负样本之间的区分度。
🖼️ 关键图片
📊 实验亮点
ReactEmbed在药物-靶标相互作用、蛋白质-蛋白质相互作用、蛋白质性质预测和分子性质预测等多个任务上均超越了当前最先进的模型。尤其值得一提的是,ReactEmbed成功应用于脂质纳米颗粒药物递送,实现了对蛋白质-纳米颗粒复合物血脑屏障渗透性的零样本预测,展示了其强大的泛化能力和实际应用价值。具体性能提升数据未知。
🎯 应用场景
ReactEmbed在药物发现、计算生物学等领域具有广泛的应用前景。它可以用于预测药物与靶标蛋白的相互作用,加速新药研发;可以用于研究蛋白质之间的相互作用,揭示生物过程的机制;还可以用于预测蛋白质和分子的性质,为生物工程提供指导。特别是在脂质纳米颗粒药物递送方面,ReactEmbed能够预测蛋白质-纳米颗粒复合物的血脑屏障渗透性,具有重要的实际应用价值。
📄 摘要(原文)
The challenge in computational biology and drug discovery lies in creating comprehensive representations of proteins and molecules that capture their intrinsic properties and interactions. Traditional methods often focus on unimodal data, such as protein sequences or molecular structures, limiting their ability to capture complex biochemical relationships. This work enhances these representations by integrating biochemical reactions encompassing interactions between molecules and proteins. By leveraging reaction data alongside pre-trained embeddings from state-of-the-art protein and molecule models, we develop ReactEmbed, a novel method that creates a unified embedding space through contrastive learning. We evaluate ReactEmbed across diverse tasks, including drug-target interaction, protein-protein interaction, protein property prediction, and molecular property prediction, consistently surpassing all current state-of-the-art models. Notably, we showcase ReactEmbed's practical utility through successful implementation in lipid nanoparticle-based drug delivery, enabling zero-shot prediction of blood-brain barrier permeability for protein-nanoparticle complexes. The code and comprehensive database of reaction pairs are available for open use at \href{https://github.com/amitaysicherman/ReactEmbed}{GitHub}.