SGAC: A Graph Neural Network Framework for Imbalanced and Structure-Aware AMP Classification

作者: Yingxu Wang, Victor Liang, Nan Yin, Siwei Liu, Eran Segal

分类: q-bio.QM, cs.LG

发布日期: 2024-12-20 (更新: 2026-01-14)

💡 一句话要点

SGAC：用于不平衡和结构感知AMP分类的图神经网络框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱八：物理动画 (Physics-based Animation)

关键词: 抗菌肽分类 图神经网络 类别不平衡学习 蛋白质结构预测 对比学习

📋 核心要点

现有AMP分类方法主要依赖序列信息，忽略了关键的空间结构信息，导致分类精度受限。
SGAC利用OmegaFold预测肽的三维结构，构建基于Cα原子的肽图，并使用GNN提取结构特征。
SGAC采用权重增强对比学习和伪标签蒸馏处理类别不平衡问题，显著提升了AMP分类性能。

📝 摘要（中文）

从宏基因组测序产生的大量肽中分类抗菌肽(AMPs)为对抗抗生素耐药性提供了一个有前景的途径。然而，大多数现有的AMP分类方法主要依赖于基于序列的表示，而未能捕捉到对准确识别至关重要的空间结构信息。虽然最近基于图的方法试图结合结构信息，但它们通常构建残基或原子级别的图，引入冗余的原子细节并增加结构复杂性。此外，少量已知AMPs和大量非AMPs之间的类别不平衡显著阻碍了预测性能。为了解决这些挑战，我们采用轻量级的OmegaFold来预测肽的三维结构，并使用C α原子构建肽图，以捕捉其骨架几何形状和空间拓扑结构。在此基础上，我们提出了一种基于空间GNN的AMP分类器(SGAC)，这是一个利用图神经网络(GNNs)提取结构特征并生成判别性图表示的新框架。为了处理类别不平衡，SGAC结合了权重增强对比学习，通过自适应加权来聚类结构相似的肽并分离不相似的肽，并应用权重增强伪标签蒸馏为未标记的样本生成高置信度的伪标签，从而实现平衡和一致的表示学习。在公开的AMP和非AMP数据集上的实验表明，与基线相比，SGAC显著实现了最先进的性能。

🔬 方法详解

问题定义：论文旨在解决抗菌肽（AMP）分类问题，特别是在类别不平衡和缺乏有效结构信息利用的情况下。现有方法主要依赖序列信息，忽略了AMP的三维结构，而基于图的方法又引入了过多的原子细节，增加了计算复杂度。类别不平衡问题也严重影响了模型的泛化能力。

核心思路：论文的核心思路是利用轻量级的OmegaFold预测肽的三维结构，并基于Cα原子构建肽图，从而有效地捕捉肽的空间拓扑结构。同时，通过权重增强的对比学习和伪标签蒸馏来解决类别不平衡问题，从而提升模型的分类性能。

技术框架：SGAC框架主要包含以下几个阶段：1) 使用OmegaFold预测肽的三维结构；2) 基于Cα原子构建肽图，节点表示Cα原子，边表示原子间的距离；3) 使用图神经网络（GNN）提取结构特征，生成图表示；4) 使用权重增强对比学习，将结构相似的肽聚类，结构不相似的肽分离；5) 使用权重增强伪标签蒸馏，为未标记样本生成伪标签，并用于训练模型。

关键创新：论文的关键创新在于：1) 使用Cα原子构建肽图，在保留关键结构信息的同时，降低了计算复杂度；2) 提出了权重增强对比学习方法，有效解决了类别不平衡问题，提升了模型的判别能力；3) 提出了权重增强伪标签蒸馏方法，利用未标记数据提升模型的泛化能力。

关键设计：在图构建方面，使用Cα原子作为节点，原子间的距离作为边的权重。在对比学习中，使用自适应权重来平衡不同类别的样本。在伪标签蒸馏中，使用高置信度的伪标签来训练模型，并使用权重来控制伪标签的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SGAC在公开的AMP数据集上取得了state-of-the-art的性能，显著优于现有的基于序列和基于图的方法。具体而言，SGAC在各项指标上均有显著提升，尤其是在类别不平衡的情况下，性能提升更为明显。这验证了SGAC在结构信息利用和类别不平衡处理方面的有效性。

🎯 应用场景

该研究成果可应用于高通量筛选抗菌肽，加速新型抗生素的发现，从而有效应对日益严重的抗生素耐药性问题。此外，该方法也可推广到其他蛋白质或生物分子的分类和功能预测任务中，具有广泛的应用前景。

📄 摘要（原文）

Classifying Antimicrobial Peptides (AMPs) from the vast collection of peptides derived from metagenomic sequencing offers a promising avenue for combating antibiotic resistance. However, most existing AMP classification methods rely primarily on sequence-based representations and fail to capture the spatial structural information critical for accurate identification. Although recent graph-based approaches attempt to incorporate structural information, they typically construct residue- or atom-level graphs that introduce redundant atomic details and increase structural complexity. Furthermore, the class imbalance between the small number of known AMPs and the abundant non-AMPs significantly hinders predictive performance. To address these challenges, we employ lightweight OmegaFold to predict the three-dimensional structures of peptides and construct peptide graphs using C α atoms to capture their backbone geometry and spatial topology. Building on this representation, we propose the Spatial GNN-based AMP Classifier (SGAC), a novel framework that leverages Graph Neural Networks (GNNs) to extract structural features and generate discriminative graph representations. To handle class imbalance, SGAC incorporates Weight-enhanced Contrastive Learning to cluster structurally similar peptides and separate dissimilar ones through adaptive weighting, and applies Weight-enhanced Pseudo-label Distillation to generate high-confidence pseudo labels for unlabeled samples, achieving balanced and consistent representation learning. Experiments on publicly available AMP and non-AMP datasets demonstrate that SGAC significantly achieves state-of-the-art performance compared to baselines.

SGAC: A Graph Neural Network Framework for Imbalanced and Structure-Aware AMP Classification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理