Multiplex Graph Contrastive Learning with Soft Negatives

📄 arXiv: 2409.08010v1 📥 PDF

作者: Zhenhao Zhao, Minhong Zhu, Chen Wang, Sijia Wang, Jiqiang Zhang, Li Chen, Weiran Cai

分类: cs.LG

发布日期: 2024-09-12

🔗 代码/项目: GITHUB


💡 一句话要点

提出MUX-GCL,利用多重图表示和软负样本进行跨尺度图对比学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 图对比学习 多重图表示 跨尺度学习 软负样本 图神经网络 节点分类 图表示学习

📋 核心要点

  1. 现有图对比学习方法在跨尺度学习中易丢失信息并受噪声干扰。
  2. MUX-GCL利用多重图表示作为patches,并结合位置亲和性校正假阴性样本。
  3. 实验表明,MUX-GCL在多个数据集上取得SOTA结果,理论分析保证了其有效性。

📝 摘要(中文)

图对比学习(GCL)旨在学习包含来自图结构数据的最大一致性信息的节点或图表示。虽然节点级别的对比模式占据主导地位,但一些研究开始探索不同尺度之间的一致性。然而,它们往往会丢失一致的信息,并受到干扰特征的污染。本文提出MUX-GCL,一种新颖的跨尺度对比学习范式,它利用多重表示作为有效的patches。这种学习模式在最小化污染噪声的同时,使用位置亲和性的相称对比策略进一步通过校正跨尺度的假阴性对来避免信息丢失。大量的下游实验表明,MUX-GCL在公共数据集上产生了多个最先进的结果。我们的理论分析进一步保证了新的目标函数作为原始输入特征和输出嵌入的互信息的更严格的下界,这使这种范式合理化。

🔬 方法详解

问题定义:现有图对比学习方法在进行跨尺度对比时,容易受到噪声特征的干扰,并且可能丢失不同尺度之间的一致性信息,导致学习到的图表示质量不高。尤其是在负样本选择上,容易出现错误的负样本对,进一步影响模型性能。

核心思路:论文的核心思路是利用多重图表示(Multiplex Graph Representations)作为有效的patches,进行跨尺度的对比学习。通过多重表示,可以减少噪声的干扰,同时利用节点的位置亲和性来校正错误的负样本对,从而更好地保留不同尺度之间的一致性信息。

技术框架:MUX-GCL的整体框架包含以下几个主要模块:1) 多重图构建:从原始图数据中提取或构建多个不同尺度的图表示;2) 图编码器:使用图神经网络(GNN)对每个尺度的图表示进行编码,得到节点或图的嵌入表示;3) 跨尺度对比学习:在不同尺度的嵌入表示之间进行对比学习,目标是最大化一致性信息;4) 软负样本校正:利用节点的位置亲和性,对负样本进行加权,降低错误负样本的影响。

关键创新:MUX-GCL的关键创新在于:1) 提出了多重图表示作为跨尺度对比学习的有效patches,降低了噪声干扰;2) 引入了软负样本校正机制,利用节点的位置亲和性来缓解错误负样本问题。这与传统的硬负样本选择方法不同,能够更准确地捕捉图结构信息。

关键设计:在多重图构建方面,可以使用不同的图采样方法或图变换操作来获得不同尺度的图表示。在软负样本校正方面,可以使用节点之间的距离、相似度或其他位置信息来计算亲和性权重。损失函数的设计上,可以使用InfoNCE loss或其他对比学习损失函数,并结合亲和性权重进行调整。具体的网络结构可以根据任务需求选择合适的GNN模型,例如GCN、GAT等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MUX-GCL在多个公共数据集上取得了state-of-the-art的结果。例如,在节点分类任务中,相比于其他对比学习方法,MUX-GCL在Cora、Citeseer和PubMed等数据集上均有显著提升。实验结果表明,多重图表示和软负样本校正机制能够有效提升图表示的质量。

🎯 应用场景

MUX-GCL可应用于各种图结构数据的分析任务,如社交网络分析、生物信息学、知识图谱推理、推荐系统等。通过学习高质量的图表示,可以提升节点分类、链接预测、图分类等任务的性能。该方法在挖掘图数据中的跨尺度信息和处理噪声数据方面具有优势,具有广泛的应用前景。

📄 摘要(原文)

Graph Contrastive Learning (GCL) seeks to learn nodal or graph representations that contain maximal consistent information from graph-structured data. While node-level contrasting modes are dominating, some efforts commence to explore consistency across different scales. Yet, they tend to lose consistent information and be contaminated by disturbing features. Here, we introduce MUX-GCL, a novel cross-scale contrastive learning paradigm that utilizes multiplex representations as effective patches. While this learning mode minimizes contaminating noises, a commensurate contrasting strategy using positional affinities further avoids information loss by correcting false negative pairs across scales. Extensive downstream experiments demonstrate that MUX-GCL yields multiple state-of-the-art results on public datasets. Our theoretical analysis further guarantees the new objective function as a stricter lower bound of mutual information of raw input features and output embeddings, which rationalizes this paradigm. Code is available at https://github.com/MUX-GCL/Code.