InfoNCE is a Free Lunch for Semantically guided Graph Contrastive Learning
作者: Zixu Wang, Bingbing Xu, Yige Yuan, Huawei Shen, Xueqi Cheng
分类: cs.LG
发布日期: 2025-05-07
备注: 10 pages, 5 figures, Accepted by SIGIR2025
🔗 代码/项目: GITHUB
💡 一句话要点
IFL-GCL:利用InfoNCE进行语义引导的图对比学习,解决负样本偏差问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图对比学习 自监督学习 Positive-Unlabeled学习 语义引导 图神经网络
📋 核心要点
- 传统图对比学习将语义相似样本错误分类为负样本,导致采样偏差,限制了模型性能。
- IFL-GCL将图对比学习视为PU学习问题,利用InfoNCE提取语义信息,指导正负样本的定义。
- 实验表明,IFL-GCL在IID和OOD场景下均显著提升性能,最高提升达9.05%,验证了其有效性。
📝 摘要(中文)
图对比学习(GCL)作为一种重要的图预训练方法,在图基础模型或LLM增强图的研究中持续发挥关键作用。传统的GCL通过使用数据增强来定义自监督任务,将增强的样本对视为正样本,其余视为负样本,并通过优化InfoNCE损失进行学习。然而,这导致语义相似的样本对被错误地分类为负样本,造成显著的采样偏差,限制了性能。本文认为GCL本质上是一个Positive-Unlabeled (PU)学习问题,自监督任务的定义应该以语义为指导,即语义相似的增强样本被认为是正样本,而其他具有未知语义的样本被视为未标记样本。从这个角度来看,关键在于如何提取语义信息。为此,我们提出了IFL-GCL,利用InfoNCE作为“免费午餐”来提取语义信息。具体来说,我们首先证明了在InfoNCE下,节点对的表示相似性与相应对比样本为正样本的概率一致。然后,我们基于修正后的样本重新定义了最大似然目标,从而产生了一个新的InfoNCE损失函数。在图预训练框架和LLM增强器的广泛实验表明,IFL-GCL在IID和OOD场景下都取得了显著的改进,最高提升达9.05%,验证了语义引导的有效性。
🔬 方法详解
问题定义:传统图对比学习方法在构建负样本时,简单地将增强后的不同样本对视为负样本。然而,这种做法忽略了增强后的样本可能仍然具有较高的语义相似性,从而导致了负样本的错误标注,引入了采样偏差。这种偏差会误导模型学习,降低表示质量,最终影响下游任务的性能。
核心思路:论文的核心思路是将图对比学习问题重新定义为Positive-Unlabeled (PU)学习问题。这意味着不再简单地将所有非增强样本对视为负样本,而是将其视为未标记样本。然后,利用InfoNCE损失函数的特性,从中提取语义信息,用于指导正负样本的重新定义。通过这种方式,可以减少负样本的错误标注,缓解采样偏差问题。
技术框架:IFL-GCL的整体框架可以概括为以下几个步骤:1. 使用标准的数据增强方法生成对比样本对。2. 使用InfoNCE损失函数训练图神经网络,得到节点表示。3. 利用InfoNCE损失函数的特性,计算节点对之间的表示相似度,并将其作为该样本对为正样本的概率估计。4. 基于该概率估计,重新定义最大似然目标函数,并推导出新的InfoNCE损失函数。5. 使用新的损失函数重新训练图神经网络。
关键创新:该论文的关键创新在于将图对比学习问题重新定义为PU学习问题,并利用InfoNCE损失函数的特性来提取语义信息,从而指导正负样本的定义。这种方法避免了简单地将所有非增强样本对视为负样本,减少了负样本的错误标注,缓解了采样偏差问题。
关键设计:论文的关键设计在于证明了在InfoNCE损失函数下,节点对的表示相似度与该样本对为正样本的概率一致。基于这个结论,论文重新定义了最大似然目标函数,并推导出了新的InfoNCE损失函数。新的损失函数考虑了样本对为正样本的概率,从而可以更准确地指导模型学习。具体而言,新的损失函数可以表示为:L = -E[log(P(y=1|x))], 其中P(y=1|x)是样本对x为正样本的概率,可以通过节点表示的相似度来估计。
🖼️ 关键图片
📊 实验亮点
实验结果表明,IFL-GCL在多个图数据集上取得了显著的性能提升。在图预训练框架下,IFL-GCL在IID和OOD场景下均优于现有的图对比学习方法,最高提升达9.05%。此外,在LLM作为增强器的实验中,IFL-GCL也表现出优越的性能,验证了其有效性。这些结果表明,通过语义引导的图对比学习可以有效地缓解负样本偏差问题,提升图表示的质量。
🎯 应用场景
该研究成果可广泛应用于各种图学习任务,例如节点分类、链接预测、图分类等。尤其是在需要高质量图表示的场景下,例如社交网络分析、知识图谱推理、生物信息学等领域,IFL-GCL可以提供更准确、更鲁棒的图表示,从而提升下游任务的性能。此外,该方法还可以作为图基础模型或LLM增强器的预训练方法,提升模型在各种图相关任务上的泛化能力。
📄 摘要(原文)
As an important graph pre-training method, Graph Contrastive Learning (GCL) continues to play a crucial role in the ongoing surge of research on graph foundation models or LLM as enhancer for graphs. Traditional GCL optimizes InfoNCE by using augmentations to define self-supervised tasks, treating augmented pairs as positive samples and others as negative. However, this leads to semantically similar pairs being classified as negative, causing significant sampling bias and limiting performance. In this paper, we argue that GCL is essentially a Positive-Unlabeled (PU) learning problem, where the definition of self-supervised tasks should be semantically guided, i.e., augmented samples with similar semantics are considered positive, while others, with unknown semantics, are treated as unlabeled. From this perspective, the key lies in how to extract semantic information. To achieve this, we propose IFL-GCL, using InfoNCE as a "free lunch" to extract semantic information. Specifically, We first prove that under InfoNCE, the representation similarity of node pairs aligns with the probability that the corresponding contrastive sample is positive. Then we redefine the maximum likelihood objective based on the corrected samples, leading to a new InfoNCE loss function. Extensive experiments on both the graph pretraining framework and LLM as an enhancer show significantly improvements of IFL-GCL in both IID and OOD scenarios, achieving up to a 9.05% improvement, validating the effectiveness of semantically guided. Code for IFL-GCL is publicly available at: https://github.com/Camel-Prince/IFL-GCL.