Hierarchical Multi-Label Contrastive Learning for Protein-Protein Interaction Prediction Across Organisms

📄 arXiv: 2507.02724v3 📥 PDF

作者: Shiyi Liu, Buwen Liang, Yuetong Fang, Zixuan Jiang, Renjing Xu

分类: cs.LG, q-bio.BM

发布日期: 2025-07-03 (更新: 2025-08-04)


💡 一句话要点

HIPPO:一种用于跨物种蛋白质互作预测的分层多标签对比学习框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 蛋白质互作预测 对比学习 分层学习 跨物种预测 零样本学习

📋 核心要点

  1. 现有PPI预测方法难以有效利用蛋白质功能层级结构信息,限制了模型在跨物种预测中的泛化能力。
  2. HIPPO框架通过分层对比学习,将蛋白质序列及其层级属性对齐,并利用数据驱动的惩罚机制整合领域知识。
  3. 实验表明,HIPPO在基准数据集上取得了SOTA性能,并展现出强大的零样本跨物种迁移能力和低数据鲁棒性。

📝 摘要(中文)

本文提出了一种名为HIPPO(HIerarchical Protein-Protein interaction prediction across Organisms)的分层对比学习框架,用于蛋白质互作(PPI)预测。该框架通过多层生物表征匹配,对齐蛋白质序列及其分层属性。HIPPO结合了分层对比损失函数,模拟蛋白质功能类之间的结构化关系,并通过数据驱动的惩罚机制自适应地整合领域和家族知识,从而保证学习到的嵌入空间与蛋白质功能的内在层次结构一致。在基准数据集上的实验表明,HIPPO优于现有方法,并在低数据情况下表现出鲁棒性。该模型还表现出强大的零样本迁移能力,无需重新训练即可迁移到其他物种,从而在实验数据有限的罕见或未充分表征的生物中实现可靠的PPI预测和功能推断。分析表明,分层特征融合对于捕获保守的互作决定因素(如结合基序和功能注释)至关重要。这项工作推进了跨物种PPI预测,并为稀疏或不平衡的多物种数据场景中的互作预测提供了一个统一的框架。

🔬 方法详解

问题定义:蛋白质互作预测(PPI)旨在预测蛋白质之间是否存在物理或功能上的相互作用。现有的PPI预测方法,尤其是在跨物种场景下,往往难以有效利用蛋白质功能层级结构信息,导致模型泛化能力受限,尤其是在数据稀疏或不平衡的情况下,预测性能会显著下降。

核心思路:HIPPO的核心思路是利用对比学习,将蛋白质序列及其分层属性(如domain、family等)映射到统一的嵌入空间,并通过分层对比损失函数,鼓励具有相似功能层级结构的蛋白质在嵌入空间中彼此靠近。这种方法能够有效地学习到蛋白质之间潜在的相互作用模式,并提高模型在跨物种场景下的泛化能力。

技术框架:HIPPO框架主要包含以下几个模块:1) 蛋白质序列编码器:用于将蛋白质序列转化为向量表示;2) 分层属性编码器:用于将蛋白质的层级属性(如domain、family等)转化为向量表示;3) 分层对比学习模块:通过分层对比损失函数,对齐蛋白质序列和分层属性的嵌入表示;4) 数据驱动的惩罚机制:自适应地整合领域和家族知识,保证学习到的嵌入空间与蛋白质功能的内在层次结构一致;5) PPI预测模块:基于学习到的蛋白质嵌入表示,预测蛋白质之间是否存在相互作用。

关键创新:HIPPO的关键创新在于:1) 提出了分层对比学习框架,能够有效地利用蛋白质功能层级结构信息;2) 引入了数据驱动的惩罚机制,自适应地整合领域和家族知识,提高了模型的泛化能力;3) 实现了强大的零样本跨物种迁移能力,无需重新训练即可应用于其他物种的PPI预测。

关键设计:HIPPO的关键设计包括:1) 分层对比损失函数的设计,该损失函数考虑了蛋白质功能类之间的结构化关系,能够更有效地学习到蛋白质之间潜在的相互作用模式;2) 数据驱动的惩罚机制的设计,该机制能够根据数据的分布情况,自适应地调整领域和家族知识的权重,从而提高模型的鲁棒性;3) 蛋白质序列编码器和分层属性编码器的选择,论文中使用了预训练的蛋白质语言模型和基于Transformer的模型,以获得更好的嵌入表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HIPPO在多个基准数据集上取得了state-of-the-art的性能,显著优于现有的PPI预测方法。尤其是在低数据情况下,HIPPO表现出更强的鲁棒性。更重要的是,HIPPO展现出强大的零样本跨物种迁移能力,无需重新训练即可应用于其他物种的PPI预测,这对于研究缺乏实验数据的物种具有重要意义。

🎯 应用场景

HIPPO在生物医药领域具有广泛的应用前景,例如:1) 发现新的药物靶点;2) 预测蛋白质之间的相互作用,从而深入理解生物过程;3) 在缺乏实验数据的物种中进行PPI预测和功能推断;4) 辅助研究疾病发生发展的分子机制。该研究为解决生物数据稀疏和不平衡问题提供了一种新的思路,有望加速生物医药研究的进程。

📄 摘要(原文)

Recent advances in AI for science have highlighted the power of contrastive learning in bridging heterogeneous biological data modalities. Building on this paradigm, we propose HIPPO (HIerarchical Protein-Protein interaction prediction across Organisms), a hierarchical contrastive framework for protein-protein interaction(PPI) prediction, where protein sequences and their hierarchical attributes are aligned through multi-tiered biological representation matching. The proposed approach incorporates hierarchical contrastive loss functions that emulate the structured relationship among functional classes of proteins. The framework adaptively incorporates domain and family knowledge through a data-driven penalty mechanism, enforcing consistency between the learned embedding space and the intrinsic hierarchy of protein functions. Experiments on benchmark datasets demonstrate that HIPPO achieves state-of-the-art performance, outperforming existing methods and showing robustness in low-data regimes. Notably, the model demonstrates strong zero-shot transferability to other species without retraining, enabling reliable PPI prediction and functional inference even in less characterized or rare organisms where experimental data are limited. Further analysis reveals that hierarchical feature fusion is critical for capturing conserved interaction determinants, such as binding motifs and functional annotations. This work advances cross-species PPI prediction and provides a unified framework for interaction prediction in scenarios with sparse or imbalanced multi-species data.