SGAC: A Graph Neural Network Framework for Imbalanced and Structure-Aware AMP Classification
作者: Yingxu Wang, Victor Liang, Nan Yin, Siwei Liu, Eran Segal
分类: q-bio.QM, cs.LG
发布日期: 2024-12-20 (更新: 2026-01-14)
💡 一句话要点
SGAC:用于不平衡和结构感知AMP分类的图神经网络框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 抗菌肽分类 图神经网络 类别不平衡学习 蛋白质结构预测 对比学习
📋 核心要点
- 现有AMP分类方法主要依赖序列信息,忽略了关键的空间结构信息,导致分类精度受限。
- SGAC利用OmegaFold预测肽的三维结构,构建基于Cα原子的肽图,并使用GNN提取结构特征。
- SGAC采用权重增强对比学习和伪标签蒸馏处理类别不平衡问题,显著提升了AMP分类性能。
📝 摘要(中文)
从宏基因组测序产生的大量肽中分类抗菌肽(AMPs)为对抗抗生素耐药性提供了一个有前景的途径。然而,大多数现有的AMP分类方法主要依赖于基于序列的表示,而未能捕捉到对准确识别至关重要的空间结构信息。虽然最近基于图的方法试图结合结构信息,但它们通常构建残基或原子级别的图,引入冗余的原子细节并增加结构复杂性。此外,少量已知AMPs和大量非AMPs之间的类别不平衡显著阻碍了预测性能。为了解决这些挑战,我们采用轻量级的OmegaFold来预测肽的三维结构,并使用C α原子构建肽图,以捕捉其骨架几何形状和空间拓扑结构。在此基础上,我们提出了一种基于空间GNN的AMP分类器(SGAC),这是一个利用图神经网络(GNNs)提取结构特征并生成判别性图表示的新框架。为了处理类别不平衡,SGAC结合了权重增强对比学习,通过自适应加权来聚类结构相似的肽并分离不相似的肽,并应用权重增强伪标签蒸馏为未标记的样本生成高置信度的伪标签,从而实现平衡和一致的表示学习。在公开的AMP和非AMP数据集上的实验表明,与基线相比,SGAC显著实现了最先进的性能。
🔬 方法详解
问题定义:论文旨在解决抗菌肽(AMP)分类问题,特别是在类别不平衡和缺乏有效结构信息利用的情况下。现有方法主要依赖序列信息,忽略了AMP的三维结构,而基于图的方法又引入了过多的原子细节,增加了计算复杂度。类别不平衡问题也严重影响了模型的泛化能力。
核心思路:论文的核心思路是利用轻量级的OmegaFold预测肽的三维结构,并基于Cα原子构建肽图,从而有效地捕捉肽的空间拓扑结构。同时,通过权重增强的对比学习和伪标签蒸馏来解决类别不平衡问题,从而提升模型的分类性能。
技术框架:SGAC框架主要包含以下几个阶段:1) 使用OmegaFold预测肽的三维结构;2) 基于Cα原子构建肽图,节点表示Cα原子,边表示原子间的距离;3) 使用图神经网络(GNN)提取结构特征,生成图表示;4) 使用权重增强对比学习,将结构相似的肽聚类,结构不相似的肽分离;5) 使用权重增强伪标签蒸馏,为未标记样本生成伪标签,并用于训练模型。
关键创新:论文的关键创新在于:1) 使用Cα原子构建肽图,在保留关键结构信息的同时,降低了计算复杂度;2) 提出了权重增强对比学习方法,有效解决了类别不平衡问题,提升了模型的判别能力;3) 提出了权重增强伪标签蒸馏方法,利用未标记数据提升模型的泛化能力。
关键设计:在图构建方面,使用Cα原子作为节点,原子间的距离作为边的权重。在对比学习中,使用自适应权重来平衡不同类别的样本。在伪标签蒸馏中,使用高置信度的伪标签来训练模型,并使用权重来控制伪标签的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SGAC在公开的AMP数据集上取得了state-of-the-art的性能,显著优于现有的基于序列和基于图的方法。具体而言,SGAC在各项指标上均有显著提升,尤其是在类别不平衡的情况下,性能提升更为明显。这验证了SGAC在结构信息利用和类别不平衡处理方面的有效性。
🎯 应用场景
该研究成果可应用于高通量筛选抗菌肽,加速新型抗生素的发现,从而有效应对日益严重的抗生素耐药性问题。此外,该方法也可推广到其他蛋白质或生物分子的分类和功能预测任务中,具有广泛的应用前景。
📄 摘要(原文)
Classifying Antimicrobial Peptides (AMPs) from the vast collection of peptides derived from metagenomic sequencing offers a promising avenue for combating antibiotic resistance. However, most existing AMP classification methods rely primarily on sequence-based representations and fail to capture the spatial structural information critical for accurate identification. Although recent graph-based approaches attempt to incorporate structural information, they typically construct residue- or atom-level graphs that introduce redundant atomic details and increase structural complexity. Furthermore, the class imbalance between the small number of known AMPs and the abundant non-AMPs significantly hinders predictive performance. To address these challenges, we employ lightweight OmegaFold to predict the three-dimensional structures of peptides and construct peptide graphs using C α atoms to capture their backbone geometry and spatial topology. Building on this representation, we propose the Spatial GNN-based AMP Classifier (SGAC), a novel framework that leverages Graph Neural Networks (GNNs) to extract structural features and generate discriminative graph representations. To handle class imbalance, SGAC incorporates Weight-enhanced Contrastive Learning to cluster structurally similar peptides and separate dissimilar ones through adaptive weighting, and applies Weight-enhanced Pseudo-label Distillation to generate high-confidence pseudo labels for unlabeled samples, achieving balanced and consistent representation learning. Experiments on publicly available AMP and non-AMP datasets demonstrate that SGAC significantly achieves state-of-the-art performance compared to baselines.