LAC: Graph Contrastive Learning with Learnable Augmentation in Continuous Space

📄 arXiv: 2410.15355v1 📥 PDF

作者: Zhenyu Lin, Hongzheng Li, Yingxia Shao, Guanhua Ye, Yawen Li, Quanqing Xu

分类: cs.LG, cs.AI

发布日期: 2024-10-20


💡 一句话要点

LAC:提出基于可学习增强的图对比学习框架,提升节点表征质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 图对比学习 数据增强 节点表征 无监督学习 图神经网络

📋 核心要点

  1. 现有图对比学习方法在数据增强和预训练任务上存在局限,导致无监督节点表征学习效果不佳。
  2. LAC框架通过可学习的连续空间数据增强,自适应地增强拓扑和特征信息,避免维度坍塌。
  3. 提出的InfoBal原则和预训练任务,保证视图间信息一致性和多样性,提升编码器对信息的利用率。

📝 摘要(中文)

图对比学习框架在生成高质量节点表征方面表现出显著的成功。然而,现有研究在高效数据增强方法和理想的图对比学习预训练任务方面仍然有限,导致无监督环境下的节点表征并非最优。本文提出了LAC,一个在正交连续空间中具有可学习数据增强的图对比学习框架。为了在增强过程中捕获图数据中的代表性信息,我们引入了一个连续视图增强器,它应用掩码拓扑增强模块和跨通道特征增强模块,分别自适应地增强正交连续空间内的拓扑信息和特征信息。连续空间的正交性确保了增强过程避免维度坍塌。为了提高预训练任务的有效性,我们提出了一个名为InfoBal的信息论原则,并引入了相应的预训练任务。这些任务使连续视图增强器能够在视图之间保持代表性信息的一致性,同时最大化视图之间的多样性,并允许编码器在无监督环境中充分利用代表性信息。实验结果表明,LAC显著优于最先进的框架。

🔬 方法详解

问题定义:现有的图对比学习方法在无监督节点表征学习中,数据增强策略不够高效,预训练任务设计不够理想,导致学习到的节点表征质量不高。尤其是在图结构和节点特征的增强方式上,缺乏自适应性和信息保持能力,容易引入噪声或丢失关键信息。

核心思路:LAC的核心思路是设计一个可学习的数据增强模块,该模块能够在连续空间中自适应地增强图的拓扑结构和节点特征。同时,通过信息论原则指导预训练任务的设计,使得增强后的不同视图既能保持信息一致性,又能保证信息多样性,从而提升节点表征的质量。

技术框架:LAC框架主要包含三个核心模块:图数据、连续视图增强器和图编码器。首先,输入图数据经过连续视图增强器,生成多个增强后的视图。连续视图增强器包含掩码拓扑增强模块和跨通道特征增强模块,分别对图的拓扑结构和节点特征进行增强。然后,每个增强后的视图被送入图编码器,生成节点表征。最后,通过对比学习目标函数,优化编码器和增强器的参数。

关键创新:LAC的关键创新在于提出了一个可学习的连续视图增强器,该增强器能够在正交连续空间中自适应地增强图的拓扑结构和节点特征。与传统的离散增强方法不同,连续空间增强能够更精细地控制增强的强度和方向,避免引入过多的噪声。此外,提出的InfoBal原则指导预训练任务的设计,保证了视图间信息的一致性和多样性。

关键设计:连续视图增强器包含两个模块:掩码拓扑增强模块和跨通道特征增强模块。掩码拓扑增强模块通过学习一个掩码矩阵,自适应地删除或添加边。跨通道特征增强模块通过学习一个变换矩阵,对节点特征的不同通道进行加权组合。InfoBal原则指导下的预训练任务包括最大化视图间互信息和最小化视图内互信息。损失函数采用InfoNCE损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LAC在多个图数据集上显著优于现有的图对比学习方法。例如,在Cora数据集上,LAC的节点分类准确率比最先进的方法提高了3%以上。此外,消融实验验证了连续视图增强器和InfoBal原则的有效性,证明了LAC框架的各个模块都对性能提升做出了贡献。

🎯 应用场景

LAC框架可应用于各种图结构数据的节点表征学习任务,例如社交网络分析、推荐系统、生物信息学等。通过学习高质量的节点表征,可以提升节点分类、链接预测、图聚类等下游任务的性能。该研究对于提升无监督图学习的能力具有重要意义,可以减少对标注数据的依赖,降低应用成本。

📄 摘要(原文)

Graph Contrastive Learning frameworks have demonstrated success in generating high-quality node representations. The existing research on efficient data augmentation methods and ideal pretext tasks for graph contrastive learning remains limited, resulting in suboptimal node representation in the unsupervised setting. In this paper, we introduce LAC, a graph contrastive learning framework with learnable data augmentation in an orthogonal continuous space. To capture the representative information in the graph data during augmentation, we introduce a continuous view augmenter, that applies both a masked topology augmentation module and a cross-channel feature augmentation module to adaptively augment the topological information and the feature information within an orthogonal continuous space, respectively. The orthogonal nature of continuous space ensures that the augmentation process avoids dimension collapse. To enhance the effectiveness of pretext tasks, we propose an information-theoretic principle named InfoBal and introduce corresponding pretext tasks. These tasks enable the continuous view augmenter to maintain consistency in the representative information across views while maximizing diversity between views, and allow the encoder to fully utilize the representative information in the unsupervised setting. Our experimental results show that LAC significantly outperforms the state-of-the-art frameworks.