Single-View Graph Contrastive Learning with Soft Neighborhood Awareness

📄 arXiv: 2412.09261v1 📥 PDF

作者: Qingqiang Sun, Chaoqi Chen, Ziyue Qiao, Xubin Zheng, Kai Wang

分类: cs.LG

发布日期: 2024-12-12

备注: Accepted by AAAI2025; full version including appendix

🔗 代码/项目: GITHUB


💡 一句话要点

提出SIGNA:一种基于软邻域感知的单视图图对比学习框架,提升节点分类性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 图对比学习 单视图学习 软邻域感知 节点分类 图神经网络

📋 核心要点

  1. 现有图对比学习方法依赖跨视图对比,存在数据增强设计复杂、信息损失和计算成本高等问题。
  2. SIGNA利用dropout生成邻居的噪声嵌入对作为潜在正样本,并通过概率方式切换邻居角色实现对比学习。
  3. 实验表明,SIGNA在节点分类任务上显著优于现有方法,且可使用MLP加速推理过程。

📝 摘要(中文)

大多数图对比学习(GCL)方法严重依赖于跨视图对比,面临着设计有效数据增强的复杂性、视图间信息损失的潜在风险以及计算成本增加等挑战。为了减轻对跨视图对比的依赖,我们提出SIGNA,一种新颖的单视图图对比学习框架。考虑到邻域结构连接和语义相似性之间的不一致性,我们采用软邻域感知进行GCL。具体来说,我们利用dropout为邻居获得结构相关但随机噪声化的嵌入对,作为潜在的正样本。在每个epoch,部分邻居的角色从正样本切换到负样本,从而产生概率邻域对比学习效果。此外,我们提出了一种归一化的Jensen-Shannon散度估计器,以获得更好的对比学习效果。在各种节点级任务上的实验表明,我们简单的单视图GCL框架始终优于现有方法,最高提升达21.74% (PPI)。特别地,通过软邻域感知,SIGNA可以采用MLP代替复杂的GCN作为编码器来生成转导学习任务中的表示,从而将其推理过程加速109倍至331倍。

🔬 方法详解

问题定义:现有图对比学习方法主要依赖于跨视图对比,这导致了几个问题。首先,设计有效的图数据增强方法非常复杂,需要领域知识。其次,不同的视图之间可能存在信息损失,影响最终的表示学习效果。最后,跨视图对比增加了计算成本,限制了其在大规模图上的应用。因此,如何设计一种无需跨视图对比的图对比学习方法是一个重要的研究问题。

核心思路:SIGNA的核心思路是利用单视图内的邻域信息进行对比学习,通过软邻域感知来解决结构连接和语义相似性之间的不一致性。具体来说,它认为图结构上的邻居节点在语义上应该相似,但由于噪声等因素,这种相似性并不总是成立。因此,SIGNA通过dropout随机地对邻居节点的嵌入进行扰动,生成多个潜在的正样本,并利用对比学习的目标函数来学习节点的表示。

技术框架:SIGNA的整体框架包括以下几个步骤:1) 输入图数据;2) 使用编码器(可以是GCN或MLP)生成节点的初始嵌入;3) 对每个节点的邻居节点的嵌入进行dropout,生成多个扰动后的嵌入,作为潜在的正样本;4) 使用归一化的Jensen-Shannon散度估计器计算对比损失,并更新编码器的参数。在训练过程中,部分邻居的角色会从正样本切换到负样本,从而实现概率邻域对比学习。

关键创新:SIGNA的关键创新在于提出了软邻域感知的概念,并将其应用于单视图图对比学习。与传统的图对比学习方法不同,SIGNA不需要设计复杂的跨视图数据增强方法,而是通过dropout来生成邻居节点的扰动嵌入,从而实现对比学习。此外,SIGNA还提出了一种归一化的Jensen-Shannon散度估计器,以获得更好的对比学习效果。

关键设计:SIGNA的关键设计包括:1) 使用dropout的概率来控制邻居节点嵌入的扰动程度;2) 使用归一化的Jensen-Shannon散度估计器来计算对比损失;3) 在训练过程中,动态地切换邻居节点作为正样本和负样本的角色。具体来说,dropout的概率是一个超参数,需要根据具体的任务进行调整。归一化的Jensen-Shannon散度估计器可以有效地衡量两个概率分布之间的差异,从而提高对比学习的效果。动态切换邻居节点的角色可以增加对比学习的难度,从而提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SIGNA在多个节点分类任务上显著优于现有方法,例如在PPI数据集上提升高达21.74%。更重要的是,SIGNA可以使用MLP代替复杂的GCN作为编码器,从而将推理速度提高109倍至331倍。这使得SIGNA在实际应用中具有更高的效率和实用性。

🎯 应用场景

SIGNA可应用于各种节点级别的任务,例如节点分类、节点聚类和链接预测。其单视图特性使其更易于部署和应用,尤其是在资源受限或数据增强困难的场景下。该方法在社交网络分析、生物信息学和推荐系统等领域具有广泛的应用前景,有助于提升相关任务的性能和效率。

📄 摘要(原文)

Most graph contrastive learning (GCL) methods heavily rely on cross-view contrast, thus facing several concomitant challenges, such as the complexity of designing effective augmentations, the potential for information loss between views, and increased computational costs. To mitigate reliance on cross-view contrasts, we propose \ttt{SIGNA}, a novel single-view graph contrastive learning framework. Regarding the inconsistency between structural connection and semantic similarity of neighborhoods, we resort to soft neighborhood awareness for GCL. Specifically, we leverage dropout to obtain structurally-related yet randomly-noised embedding pairs for neighbors, which serve as potential positive samples. At each epoch, the role of partial neighbors is switched from positive to negative, leading to probabilistic neighborhood contrastive learning effect. Furthermore, we propose a normalized Jensen-Shannon divergence estimator for a better effect of contrastive learning. Surprisingly, experiments on diverse node-level tasks demonstrate that our simple single-view GCL framework consistently outperforms existing methods by margins of up to 21.74% (PPI). In particular, with soft neighborhood awareness, SIGNA can adopt MLPs instead of complicated GCNs as the encoder to generate representations in transductive learning tasks, thus speeding up its inference process by 109 times to 331 times. The source code is available at https://github.com/sunisfighting/SIGNA.