GeoPep: A geometry-aware masked language model for protein-peptide binding site prediction

📄 arXiv: 2510.27040v1 📥 PDF

作者: Dian Chen, Yunkai Chen, Tong Lin, Sijie Chen, Xiaolin Cheng

分类: eess.SP, cs.LG

发布日期: 2025-10-30

备注: 11 pages, 5 figures


💡 一句话要点

GeoPep:一种几何感知掩码语言模型,用于预测蛋白-肽结合位点

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 蛋白质-肽相互作用 结合位点预测 迁移学习 ESM3 几何深度学习

📋 核心要点

  1. 蛋白质-肽相互作用预测面临肽链柔性和结构数据稀缺的挑战,现有方法难以有效训练。
  2. GeoPep利用ESM3预训练的蛋白质表示,通过迁移学习和几何信息,提升预测精度。
  3. 实验表明,GeoPep在蛋白质-肽结合位点预测中显著优于现有方法,有效捕获稀疏结合模式。

📝 摘要(中文)

多模态方法整合蛋白质结构和序列,在蛋白质-蛋白质界面预测中取得了显著成功。然而,由于肽的固有构象灵活性以及结构数据的有限性,将这些方法扩展到蛋白质-肽相互作用仍然具有挑战性,这阻碍了结构感知模型的直接训练。为了解决这些限制,我们引入了GeoPep,这是一种用于肽结合位点预测的新框架,它利用了来自ESM3(一种多模态蛋白质基础模型)的迁移学习。GeoPep微调ESM3从蛋白质-蛋白质结合中预先学习的丰富表示,以解决蛋白质-肽结合数据的有限可用性问题。微调后的模型进一步与参数高效的神经网络架构集成,该架构能够从稀疏数据中学习复杂的模式。此外,该模型使用基于距离的损失函数进行训练,该函数利用3D结构信息来增强结合位点预测。全面的评估表明,GeoPep通过有效地捕获稀疏和异构的结合模式,在蛋白质-肽结合位点预测方面显著优于现有方法。

🔬 方法详解

问题定义:蛋白质-肽结合位点预测是药物发现和蛋白质功能研究的关键。现有方法在处理蛋白质-肽相互作用时,由于肽的构象灵活性和结构数据的稀缺性,难以直接训练有效的结构感知模型。这导致预测精度较低,无法充分利用蛋白质的3D结构信息。

核心思路:GeoPep的核心思路是利用迁移学习,从大规模蛋白质-蛋白质相互作用数据中预训练的模型(ESM3)中提取知识,并将其迁移到蛋白质-肽结合位点预测任务中。通过微调ESM3,并结合几何信息,可以有效解决数据稀疏和肽链柔性的问题。

技术框架:GeoPep框架包含以下主要阶段:1) 利用ESM3提取蛋白质的结构和序列特征;2) 使用参数高效的神经网络架构(具体结构未知)对提取的特征进行处理,学习蛋白质-肽结合的模式;3) 使用基于距离的损失函数,结合蛋白质的3D结构信息,优化模型参数。

关键创新:GeoPep的关键创新在于:1) 利用ESM3进行迁移学习,克服了蛋白质-肽结合数据稀缺的问题;2) 结合几何信息,使用基于距离的损失函数,增强了模型对蛋白质3D结构的感知能力;3) 采用参数高效的神经网络架构,降低了模型的复杂度,提高了泛化能力。

关键设计:论文中提到使用了基于距离的损失函数,具体形式未知。参数高效的神经网络架构的具体结构也未知。ESM3的微调策略和参数设置也未详细说明。这些细节对于复现和进一步改进GeoPep至关重要,但论文中并未提供足够的信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GeoPep在蛋白质-肽结合位点预测方面显著优于现有方法,证明了迁移学习和几何信息结合的有效性。具体性能数据和对比基线未在摘要中给出,但强调了GeoPep能够有效捕获稀疏和异构的结合模式。

🎯 应用场景

GeoPep在药物发现领域具有广泛的应用前景,可以用于预测药物与靶蛋白的结合位点,加速药物筛选和优化过程。此外,该方法还可以用于研究蛋白质-肽相互作用的机制,帮助理解蛋白质的功能和调控,为生物学研究提供新的工具。

📄 摘要(原文)

Multimodal approaches that integrate protein structure and sequence have achieved remarkable success in protein-protein interface prediction. However, extending these methods to protein-peptide interactions remains challenging due to the inherent conformational flexibility of peptides and the limited availability of structural data that hinder direct training of structure-aware models. To address these limitations, we introduce GeoPep, a novel framework for peptide binding site prediction that leverages transfer learning from ESM3, a multimodal protein foundation model. GeoPep fine-tunes ESM3's rich pre-learned representations from protein-protein binding to address the limited availability of protein-peptide binding data. The fine-tuned model is further integrated with a parameter-efficient neural network architecture capable of learning complex patterns from sparse data. Furthermore, the model is trained using distance-based loss functions that exploit 3D structural information to enhance binding site prediction. Comprehensive evaluations demonstrate that GeoPep significantly outperforms existing methods in protein-peptide binding site prediction by effectively capturing sparse and heterogeneous binding patterns.