Bidirectional Hierarchical Protein Multi-Modal Representation Learning
作者: Xuefeng Liu, Songhao Jiang, Chih-chan Tien, Jinbo Xu, Rick Stevens
分类: cs.LG, cs.AI, q-bio.MN
发布日期: 2025-04-07 (更新: 2025-08-10)
💡 一句话要点
提出双向分层蛋白质多模态表征学习框架,融合序列与结构信息。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 蛋白质表征学习 多模态融合 双向分层融合 蛋白质语言模型 图神经网络
📋 核心要点
- 蛋白质语言模型缺乏结构信息,而图神经网络受限于结构数据不足,现有方法难以有效融合序列与结构信息。
- 提出双向分层融合框架,利用注意力与门控机制,实现序列与结构特征在网络层间的有效交互与增强。
- 在多个蛋白质表征学习任务上,该方法超越现有技术,确立了多模态蛋白质表征学习的新SOTA。
📝 摘要(中文)
蛋白质表征学习对许多生物学任务至关重要。近年来,基于大规模蛋白质序列预训练的Transformer蛋白质语言模型(pLMs)在基于序列的任务中取得了显著成功。然而,pLMs缺乏结构上下文信息。另一方面,旨在利用3D结构信息的图神经网络(GNNs)在蛋白质相关预测任务中显示出良好的泛化能力,但其有效性通常受到标记结构数据稀缺的限制。认识到序列和结构表征是同一蛋白质实体的互补视角,我们提出了一种多模态双向分层融合框架,以有效地融合这些模态。我们的框架采用注意力和门控机制,以实现pLMs生成的序列表征和GNN提取的结构特征之间的有效交互,从而改善神经网络各层的信息交换和增强。这种双向分层(Bi-Hierarchical)融合方法利用了两种模态的优势,以捕获更丰富和更全面的蛋白质表征。基于该框架,我们进一步引入了具有门控的局部Bi-Hierarchical融合和具有多头自注意力的全局Bi-Hierarchical融合方法。我们的方法在各种蛋白质表征学习基准测试中,包括酶EC分类、模型质量评估、蛋白质-配体结合亲和力预测、蛋白质-蛋白质结合位点预测和B细胞表位预测,都表现出优于强大基线和现有融合技术的持续改进。我们的方法为多模态蛋白质表征学习建立了一个新的最先进水平,强调了Bi-Hierarchical融合在桥接序列和结构模态方面的有效性。
🔬 方法详解
问题定义:论文旨在解决蛋白质表征学习中,如何有效融合蛋白质序列信息和三维结构信息的问题。现有的蛋白质语言模型(pLMs)擅长处理序列信息,但缺乏结构上下文;而图神经网络(GNNs)虽然能利用结构信息,但受限于标注结构数据的稀缺性。因此,如何结合两者的优势,构建更全面、更具表达能力的蛋白质表征是一个挑战。
核心思路:论文的核心思路是利用双向分层融合框架,将pLMs生成的序列表征和GNN提取的结构特征进行有效融合。通过注意力机制和门控机制,实现两种模态信息在神经网络各层之间的交互和增强,从而弥补各自的不足,获得更丰富的蛋白质表征。
技术框架:整体框架包含以下几个主要模块:1) 使用pLMs提取蛋白质序列的表征;2) 使用GNN提取蛋白质三维结构的特征;3) 局部双向分层融合模块,利用门控机制融合局部序列和结构信息;4) 全局双向分层融合模块,利用多头自注意力机制融合全局序列和结构信息;5) 将融合后的表征用于下游任务的预测。
关键创新:论文的关键创新在于提出了双向分层融合(Bi-Hierarchical Fusion)框架。该框架通过在神经网络的每一层进行双向的信息交互,使得序列和结构信息能够充分融合,从而获得更具表达能力的蛋白质表征。与传统的单向融合方法相比,该方法能够更好地利用两种模态的互补信息。
关键设计:局部Bi-Hierarchical融合模块使用门控机制来控制序列和结构信息的融合比例,从而避免噪声信息的干扰。全局Bi-Hierarchical融合模块使用多头自注意力机制来捕捉序列和结构信息之间的长程依赖关系。此外,论文还针对不同的下游任务,设计了相应的损失函数和评估指标。
🖼️ 关键图片
📊 实验亮点
该方法在多个蛋白质表征学习基准测试中取得了显著的性能提升。例如,在酶EC分类任务中,该方法优于现有最佳方法;在蛋白质-配体结合亲和力预测任务中,该方法也取得了明显的改进。实验结果表明,该方法能够有效地融合序列和结构信息,从而提高蛋白质表征的质量。
🎯 应用场景
该研究成果可广泛应用于蛋白质工程、药物发现和生物信息学等领域。例如,可以用于预测蛋白质的功能、结构和相互作用,从而加速新药的研发过程。此外,该方法还可以用于评估蛋白质模型的质量,提高蛋白质结构预测的准确性。未来,该方法有望成为蛋白质研究的重要工具。
📄 摘要(原文)
Protein representation learning is critical for numerous biological tasks. Recently, large transformer-based protein language models (pLMs) pretrained on large scale protein sequences have demonstrated significant success in sequence-based tasks. However, pLMs lack structural context. Conversely, graph neural networks (GNNs) designed to leverage 3D structural information have shown promising generalization in protein-related prediction tasks, but their effectiveness is often constrained by the scarcity of labeled structural data. Recognizing that sequence and structural representations are complementary perspectives of the same protein entity, we propose a multimodal bidirectional hierarchical fusion framework to effectively merge these modalities. Our framework employs attention and gating mechanisms to enable effective interaction between pLMs-generated sequential representations and GNN-extracted structural features, improving information exchange and enhancement across layers of the neural network. This bidirectional and hierarchical (Bi-Hierarchical) fusion approach leverages the strengths of both modalities to capture richer and more comprehensive protein representations. Based on the framework, we further introduce local Bi-Hierarchical Fusion with gating and global Bi-Hierarchical Fusion with multihead self-attention approaches. Our method demonstrates consistent improvements over strong baselines and existing fusion techniques in a variety of protein representation learning benchmarks, including enzyme EC classification, model quality assessment, protein-ligand binding affinity prediction, protein-protein binding site prediction, and B cell epitopes prediction. Our method establishes a new state-of-the-art for multimodal protein representation learning, emphasizing the efficacy of Bi-Hierarchical Fusion in bridging sequence and structural modalities.