From Overfitting to Robustness: Quantity, Quality, and Variety Oriented Negative Sample Selection in Graph Contrastive Learning

📄 arXiv: 2406.15044v1 📥 PDF

作者: Adnan Ali, Jinlong Li, Huanhuan Chen, Ali Kashif Bashir

分类: cs.LG, cs.AI

发布日期: 2024-06-21


💡 一句话要点

提出NegAmplify框架,通过累积样本选择解决图对比学习中的过拟合问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 图对比学习 负样本选择 过拟合 节点分类 累积样本选择

📋 核心要点

  1. 图对比学习中,负样本的数量、质量和多样性对模型性能至关重要,但现有方法容易产生过拟合。
  2. 论文提出累积样本选择(CSS)算法,通过构建不同难度的负样本池并动态调整采样比例,平衡负样本的质量、数量和多样性。
  3. 提出的NegAmplify框架在多个节点分类数据集上优于现有方法,最高提升2.86%,验证了所提方法的有效性。

📝 摘要(中文)

图对比学习(GCL)旨在通过对比正负样本对来学习节点嵌入,而图数据增强方法被用于生成这些样本。负样本相对于正样本的变化、数量和质量在学习有意义的节点嵌入以用于下游节点分类任务中起着关键作用。较少的变化、过多的数量和低质量的负样本会导致模型对特定节点过度拟合,从而导致模型鲁棒性降低。为了解决GCL范式中的过拟合问题,本研究提出了一种新颖的累积样本选择(CSS)算法,该算法综合考虑了负样本的质量、变化和数量。最初,构建了三个负样本池:简单、中等和困难负样本,分别包含总可用负样本的25%、50%和25%。然后,从这三个负样本池中选择10%的负样本来训练模型。之后,决策代理模块评估模型训练结果,并决定是通过增加比例来探索来自三个负样本池的更多负样本,还是继续利用当前的采样比例。所提出的算法被集成到一个名为NegAmplify的图对比学习框架中。在九个图节点分类数据集上,NegAmplify与SOTA方法进行了比较,其中七个数据集实现了更好的节点分类准确率,最高提升了2.86%。

🔬 方法详解

问题定义:图对比学习(GCL)旨在学习节点的有效嵌入表示,但现有方法在负样本选择上存在不足,容易导致模型过拟合,泛化能力差。具体来说,负样本数量过多、质量不高、多样性不足都会使模型记住特定节点的特征,而非学习到更通用的图结构信息。

核心思路:论文的核心思路是通过控制负样本的数量、质量和多样性来缓解过拟合问题。具体而言,将负样本划分为不同难度的池子(简单、中等、困难),并设计一个决策代理模块,根据模型训练情况动态调整从不同难度池子中采样负样本的比例。这样既能保证负样本的多样性,又能根据模型学习状态调整负样本的难度,从而提高模型的泛化能力。

技术框架:NegAmplify框架主要包含以下几个模块:1) 图数据增强模块:用于生成正负样本对;2) 负样本池构建模块:将负样本划分为简单、中等、困难三个池子;3) 累积样本选择(CSS)模块:根据决策代理模块的指示,从不同难度的负样本池中选择一定比例的负样本;4) 对比学习模块:利用选择的负样本和正样本进行对比学习,更新节点嵌入表示;5) 决策代理模块:评估模型训练结果,并决定是否调整负样本的采样比例。

关键创新:论文的关键创新在于提出了累积样本选择(CSS)算法,该算法能够动态地调整负样本的采样策略,从而平衡负样本的质量、数量和多样性。与现有方法相比,CSS算法能够更好地适应不同的数据集和任务,提高模型的鲁棒性和泛化能力。

关键设计:负样本池的划分比例为简单、中等、困难负样本分别占总负样本的25%、50%和25%。初始采样比例为每个池子各采样10%的负样本。决策代理模块根据验证集上的性能指标(如准确率)来决定是否调整采样比例。如果模型在验证集上的性能提升缓慢或下降,则增加困难负样本的采样比例;如果模型已经收敛,则保持当前的采样比例。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,NegAmplify框架在九个图节点分类数据集中的七个上取得了优于SOTA方法的结果,最高提升了2.86%。这表明所提出的累积样本选择(CSS)算法能够有效地缓解图对比学习中的过拟合问题,提高模型的泛化能力。尤其是在一些复杂图结构的数据集上,NegAmplify的性能提升更为显著。

🎯 应用场景

该研究成果可应用于各种图结构数据的节点分类任务,例如社交网络用户画像、生物分子功能预测、知识图谱实体分类等。通过选择合适的负样本,可以提高模型在这些任务上的准确性和鲁棒性,从而为实际应用提供更可靠的支持。此外,该研究提出的动态负样本选择策略也可以推广到其他对比学习任务中。

📄 摘要(原文)

Graph contrastive learning (GCL) aims to contrast positive-negative counterparts to learn the node embeddings, whereas graph data augmentation methods are employed to generate these positive-negative samples. The variation, quantity, and quality of negative samples compared to positive samples play crucial roles in learning meaningful embeddings for node classification downstream tasks. Less variation, excessive quantity, and low-quality negative samples cause the model to be overfitted for particular nodes, resulting in less robust models. To solve the overfitting problem in the GCL paradigm, this study proposes a novel Cumulative Sample Selection (CSS) algorithm by comprehensively considering negative samples' quality, variations, and quantity. Initially, three negative sample pools are constructed: easy, medium, and hard negative samples, which contain 25%, 50%, and 25% of the total available negative samples, respectively. Then, 10% negative samples are selected from each of these three negative sample pools for training the model. After that, a decision agent module evaluates model training results and decides whether to explore more negative samples from three negative sample pools by increasing the ratio or keep exploiting the current sampling ratio. The proposed algorithm is integrated into a proposed graph contrastive learning framework named NegAmplify. NegAmplify is compared with the SOTA methods on nine graph node classification datasets, with seven achieving better node classification accuracy with up to 2.86% improvement.