AVP-Pro: An Adaptive Multi-Modal Fusion and Contrastive Learning Approach for Comprehensive Two-Stage Antiviral Peptide Identification

📄 arXiv: 2601.11028v1 📥 PDF

作者: Xinru Wen, Weizhong Lin, zi liu, Xuan Xiao

分类: cs.LG

发布日期: 2026-01-16

备注: arXiv admin note: substantial text overlap with arXiv:2512.21544


💡 一句话要点

AVP-Pro:一种自适应多模态融合与对比学习方法,用于全面的两阶段抗病毒肽识别

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 抗病毒肽识别 多模态融合 对比学习 迁移学习 序列特征提取

📋 核心要点

  1. 现有抗病毒肽识别方法难以有效捕获序列的复杂依赖关系,且对高相似度样本的区分能力不足。
  2. AVP-Pro通过自适应多模态融合和对比学习,构建两阶段预测框架,提升模型对序列特征的理解和区分能力。
  3. 实验结果表明,AVP-Pro在通用AVP识别和功能亚型预测上均优于现有方法,为抗病毒药物筛选提供新工具。

📝 摘要(中文)

准确识别抗病毒肽(AVPs)对于新型药物开发至关重要。然而,现有方法在捕获复杂序列依赖性和区分高相似度混淆样本方面仍存在局限性。为了应对这些挑战,我们提出了一种新颖的两阶段预测框架AVP-Pro,该框架集成了自适应特征融合和对比学习。为了全面捕获肽序列的理化性质和深层模式,我们构建了一个包含10个不同描述符的全景特征空间,并设计了一个分层融合架构。该架构集成了自注意力机制和自适应门控机制,以基于序列上下文动态调节CNN提取的局部motif和BiLSTM捕获的全局依赖关系的权重。针对正负样本序列之间高度相似性导致的模糊决策边界,我们采用了一种由BLOSUM62增强的在线难例挖掘(OHEM)驱动的对比学习策略。这种方法显著提高了模型的区分能力。模型评估结果表明,在通用AVP识别的第一阶段,该模型实现了0.9531的准确率和0.9064的MCC,优于现有的最先进(SOTA)方法。在功能亚型预测的第二阶段,结合迁移学习策略,该模型实现了小样本条件下6个病毒家族和8个特定病毒的准确分类。AVP-Pro为抗病毒药物的高通量筛选提供了一个强大且可解释的新工具。为了进一步提高用户的可访问性,我们开发了一个用户友好的Web界面,网址为https://wwwy1031-avp-pro.hf.space。

🔬 方法详解

问题定义:现有抗病毒肽(AVP)识别方法在处理复杂序列依赖关系和区分高度相似的正负样本时存在困难。这些方法无法充分利用肽序列的理化性质和深层模式,导致识别准确率不高,尤其是在功能亚型预测方面表现不足。

核心思路:AVP-Pro的核心思路是构建一个能够全面捕获肽序列特征并有效区分相似样本的两阶段预测框架。通过多模态融合提取序列的理化性质和深层模式,并利用对比学习增强模型对正负样本的区分能力。这种设计旨在提高AVP识别的准确性和鲁棒性。

技术框架:AVP-Pro包含两个主要阶段:通用AVP识别和功能亚型预测。在第一阶段,模型使用包含10个不同描述符的全景特征空间,并通过分层融合架构(包括自注意力机制和自适应门控机制)动态调节CNN和BiLSTM提取的特征权重。在第二阶段,模型采用迁移学习策略,利用第一阶段训练的模型进行功能亚型预测。

关键创新:AVP-Pro的关键创新在于其自适应多模态融合和对比学习策略。自适应融合能够根据序列上下文动态调整不同特征的权重,从而更有效地捕获序列的复杂依赖关系。对比学习利用在线难例挖掘(OHEM)和BLOSUM62增强,显著提高了模型对相似样本的区分能力。

关键设计:在特征融合方面,模型使用自注意力机制和自适应门控机制来动态调整CNN和BiLSTM提取的特征权重。在对比学习方面,模型采用OHEM策略选择难例,并使用BLOSUM62矩阵来增强对比损失,从而更好地学习样本之间的相似性和差异性。损失函数的设计也至关重要,需要平衡分类损失和对比损失,以实现最佳的性能。

📊 实验亮点

AVP-Pro在通用AVP识别的第一阶段,准确率达到0.9531,MCC达到0.9064,优于现有SOTA方法。在功能亚型预测的第二阶段,结合迁移学习策略,实现了小样本条件下6个病毒家族和8个特定病毒的准确分类。这些结果表明AVP-Pro在抗病毒肽识别方面具有显著优势。

🎯 应用场景

AVP-Pro可应用于抗病毒药物的高通量筛选,加速新型抗病毒药物的开发进程。该方法能够准确识别具有潜力的抗病毒肽,并预测其功能亚型,为药物设计提供重要信息。此外,该研究的框架和技术也可推广到其他生物活性肽的识别和预测任务中。

📄 摘要(原文)

The accurate identification of antiviral peptides (AVPs) is crucial for novel drug development. However, existing methods still have limitations in capturing complex sequence dependencies and distinguishing confusing samples with high similarity. To address these challenges, we propose AVP-Pro, a novel two-stage predictive framework that integrates adaptive feature fusion and contrastive learning. To comprehensively capture the physicochemical properties and deep-seated patterns of peptide sequences, we constructed a panoramic feature space encompassing 10 distinct descriptors and designed a hierarchical fusion architecture. This architecture integrates self-attention and adaptive gating mechanisms to dynamically modulate the weights of local motifs extracted by CNNs and global dependencies captured by BiLSTMs based on sequence context. Targeting the blurred decision boundary caused by the high similarity between positive and negative sample sequences, we adopted an Online Hard Example Mining (OHEM)-driven contrastive learning strategy enhanced by BLOSUM62. This approach significantly sharpened the model's discriminative power. Model evaluation results show that in the first stage of general AVP identification, the model achieved an accuracy of 0.9531 and an MCC of 0.9064, outperforming existing state-of-the-art (SOTA) methods. In the second stage of functional subtype prediction, combined with a transfer learning strategy, the model realized accurate classification of 6 viral families and 8 specific viruses under small-sample conditions. AVP-Pro provides a powerful and interpretable new tool for the high-throughput screening of antiviral drugs. To further enhance accessibility for users, we have developed a user-friendly web interface, which is available at https://wwwy1031-avp-pro.hf.space.