AVP-Fusion: Adaptive Multi-Modal Fusion and Contrastive Learning for Two-Stage Antiviral Peptide Identification
作者: Xinru Wen, Weizhong Lin, Xuan Xiao
分类: cs.LG
发布日期: 2025-12-25
💡 一句话要点
AVP-Fusion:融合自适应多模态和对比学习的两阶段抗病毒肽识别方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 抗病毒肽识别 多模态融合 对比学习 深度学习 自适应门控
📋 核心要点
- 现有抗病毒肽识别方法难以捕捉序列依赖性,且对模糊样本分类效果不佳。
- AVP-Fusion通过自适应门控机制融合CNN和BiLSTM特征,并利用对比学习优化决策边界。
- 在基准数据集上,AVP-Fusion显著优于现有方法,并能有效进行病毒亚类预测。
📝 摘要(中文)
准确识别抗病毒肽(AVPs)对于加速新型药物开发至关重要。然而,现有的计算方法难以捕捉复杂的序列依赖性,并有效处理模糊、难以分类的样本。为了解决这些挑战,我们提出了一种新颖的两阶段深度学习框架AVP-Fusion,该框架集成了自适应特征融合和对比学习。与传统的静态特征连接不同,我们使用10种不同的描述符构建了一个全景特征空间,并引入了一种自适应门控机制。该机制基于序列上下文动态调节CNN提取的局部motif和BiLSTM捕获的全局依赖关系的权重。此外,为了解决数据分布挑战,我们采用了一种由在线难例挖掘(OHEM)和基于BLOSUM62的数据增强驱动的对比学习策略,从而显著锐化了模型的决策边界。在基准Set 1数据集上的实验结果表明,AVP-Fusion实现了0.9531的准确率和0.9064的MCC,显著优于最先进的方法。在第二阶段,利用迁移学习,该模型能够对六个病毒家族和八种特定病毒进行精确的亚类预测,即使在样本量有限的情况下也是如此。总而言之,AVP-Fusion是一种用于高通量抗病毒药物筛选的强大且可解释的工具。
🔬 方法详解
问题定义:论文旨在解决抗病毒肽(AVPs)识别问题。现有方法的痛点在于无法充分利用序列信息,难以捕捉局部motif和全局依赖关系,并且在处理数据分布不平衡和难例时表现不佳,导致识别精度受限。
核心思路:论文的核心思路是结合多模态特征融合和对比学习,构建一个更鲁棒和准确的AVP识别模型。通过自适应地融合不同特征,模型能够更好地理解序列信息,并通过对比学习来优化决策边界,从而提高识别性能。
技术框架:AVP-Fusion是一个两阶段的深度学习框架。第一阶段,模型使用10种不同的序列描述符构建全景特征空间,并通过自适应门控机制融合CNN提取的局部motif和BiLSTM捕获的全局依赖关系。第二阶段,利用迁移学习,将第一阶段训练的模型迁移到病毒亚类预测任务中。
关键创新:该方法的主要创新点在于:1) 提出了自适应门控机制,能够动态调节局部和全局特征的权重,从而更好地捕捉序列信息。2) 采用了基于在线难例挖掘(OHEM)和BLOSUM62的数据增强的对比学习策略,能够有效解决数据分布不平衡和难例问题,锐化模型的决策边界。
关键设计:自适应门控机制使用sigmoid函数来计算CNN和BiLSTM输出的权重,并根据序列上下文动态调整。对比学习损失函数基于InfoNCE loss,并结合OHEM选择难例进行训练。BLOSUM62用于数据增强,通过替换氨基酸来生成新的训练样本。
📊 实验亮点
AVP-Fusion在基准Set 1数据集上取得了显著的性能提升,准确率达到0.9531,MCC达到0.9064,显著优于现有最先进的方法。此外,该模型在病毒亚类预测任务中也表现出色,即使在样本量有限的情况下,也能实现精确的预测。
🎯 应用场景
AVP-Fusion可应用于高通量抗病毒药物筛选,加速新型抗病毒药物的开发进程。该方法能够准确识别具有潜力的抗病毒肽,并预测其所属的病毒家族和类型,从而为药物设计和靶点选择提供重要依据。此外,该框架的设计思路也可以推广到其他生物序列分析任务中。
📄 摘要(原文)
Accurate identification of antiviral peptides (AVPs) is critical for accelerating novel drug development. However, current computational methods struggle to capture intricate sequence dependencies and effectively handle ambiguous, hard-to-classify samples. To address these challenges, we propose AVP-Fusion, a novel two-stage deep learning framework integrating adaptive feature fusion and contrastive learning. Unlike traditional static feature concatenation, we construct a panoramic feature space using 10 distinct descriptors and introduce an Adaptive Gating Mechanism.This mechanism dynamically regulates the weights of local motifs extracted by CNNs and global dependencies captured by BiLSTMs based on sequence context. Furthermore, to address data distribution challenges, we employ a contrastive learning strategy driven by Online Hard Example Mining (OHEM) and BLOSUM62-based data augmentation, which significantly sharpens the model's decision boundaries. Experimental results on the benchmark Set 1 dataset demonstrate that AVP-Fusion achieves an accuracy of 0.9531 and an MCC of 0.9064, significantly outperforming state-of-the-art methods. In the second stage, leveraging transfer learning, the model enables precise subclass prediction for six viral families and eight specific viruses, even under limited sample sizes. In summary, AVP-Fusion serves as a robust and interpretable tool for high-throughput antiviral drug screening.