GCL-GCN: Graphormer and Contrastive Learning Enhanced Attributed Graph Clustering Network

📄 arXiv: 2507.19095v2 📥 PDF

作者: Binxiong Li, Xu Xiang, Xue Li, Quanzhou Lou, Binyu Zhao, Yujie Liu, Huijie Tang, Benhan Yang

分类: cs.LG

发布日期: 2025-07-25 (更新: 2025-07-31)

备注: The source code for this study is available at https://github.com/YF-W/GCL-GCN


💡 一句话要点

GCL-GCN:结合Graphormer和对比学习的属性图聚类网络

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 属性图聚类 图神经网络 对比学习 Graphormer 图Transformer

📋 核心要点

  1. 现有属性图聚类方法难以有效处理稀疏和异构图数据,无法充分捕获局部依赖关系和复杂结构。
  2. GCL-GCN通过Graphormer模块结合中心性编码和空间关系,并引入对比学习模块增强特征区分能力。
  3. 实验结果表明,GCL-GCN在多个数据集上显著优于现有方法,例如在Cora数据集上聚类指标提升显著。

📝 摘要(中文)

属性图聚类在现代数据分析中至关重要。然而,由于图数据的复杂性和节点属性的异构性,利用图信息进行聚类仍然具有挑战性。为了解决这个问题,我们提出了一种新的深度图聚类模型GCL-GCN,专门用于解决现有模型在处理稀疏和异构图数据时捕获局部依赖关系和复杂结构的局限性。GCL-GCN引入了一个创新的Graphormer模块,它结合了中心性编码和空间关系,有效地捕获节点之间的全局和局部信息,从而提高节点表示的质量。此外,我们提出了一种新的对比学习模块,显著增强了特征表示的区分能力。在预训练阶段,该模块通过对原始特征矩阵进行对比学习来增加特征区分度,确保为后续图卷积和聚类任务提供更易于识别的初始表示。在六个数据集上的大量实验结果表明,GCL-GCN在聚类质量和鲁棒性方面优于14种先进方法。特别是在Cora数据集上,与主要的比较方法MBN相比,ACC、NMI和ARI分别提高了4.94%、13.01%和10.97%。

🔬 方法详解

问题定义:属性图聚类旨在将图中具有相似属性和连接模式的节点划分到同一簇中。现有方法在处理具有稀疏连接和异构节点属性的图时,难以有效捕获节点间的局部依赖关系和全局结构信息,导致聚类性能下降。此外,如何获得具有区分性的节点表示也是一个挑战。

核心思路:GCL-GCN的核心思路是利用Graphormer模块增强节点表示,使其能够同时捕获局部和全局信息。同时,通过对比学习预训练节点特征,提高初始特征的区分度,从而改善后续图卷积和聚类效果。这种结合图Transformer和对比学习的方式旨在克服传统方法在处理复杂图数据时的局限性。

技术框架:GCL-GCN包含三个主要模块:1) Graphormer模块,用于学习节点表示,该模块结合了中心性编码和空间关系,以捕获全局和局部信息。2) 对比学习模块,用于预训练节点特征,提高特征的区分性。3) 图卷积网络(GCN),用于在学习到的节点表示上进行图卷积操作,进一步优化节点表示。整个流程包括预训练阶段和聚类阶段。预训练阶段使用对比学习模块优化初始特征,聚类阶段使用Graphormer和GCN进行特征提取和聚类。

关键创新:GCL-GCN的关键创新在于:1) 引入Graphormer模块,结合中心性编码和空间关系,有效捕获节点之间的全局和局部信息,克服了传统GCN方法在捕获长距离依赖方面的不足。2) 提出对比学习模块,用于预训练节点特征,提高特征的区分性,为后续图卷积和聚类任务提供更好的初始表示。

关键设计:Graphormer模块使用Transformer结构,并引入了中心性编码和空间关系编码。中心性编码用于表示节点的重要性,空间关系编码用于表示节点之间的距离。对比学习模块使用InfoNCE损失函数,通过最大化正样本对之间的相似性,最小化负样本对之间的相似性来学习节点表示。GCN使用两层结构,激活函数为ReLU。聚类损失函数采用常用的K-means损失函数。具体的参数设置(如Transformer的层数、GCN的层数、对比学习的温度系数等)需要在实验中进行调整。

📊 实验亮点

GCL-GCN在六个数据集上进行了广泛的实验,结果表明其在聚类质量和鲁棒性方面优于14种先进方法。特别是在Cora数据集上,与主要的比较方法MBN相比,ACC、NMI和ARI分别提高了4.94%、13.01%和10.97%。这些结果表明GCL-GCN能够有效捕获图数据的复杂结构和节点属性的异构性,从而提高聚类性能。

🎯 应用场景

GCL-GCN可应用于社交网络分析、生物信息学、推荐系统等领域。例如,在社交网络中,可以利用GCL-GCN对用户进行聚类,发现具有相似兴趣和行为模式的用户群体。在生物信息学中,可以用于对基因或蛋白质进行聚类,发现具有相似功能的基因或蛋白质家族。该研究有助于提升图数据分析的准确性和效率,为相关领域的决策提供支持。

📄 摘要(原文)

Attributed graph clustering holds significant importance in modern data analysis. However, due to the complexity of graph data and the heterogeneity of node attributes, leveraging graph information for clustering remains challenging. To address this, we propose a novel deep graph clustering model, GCL-GCN, specifically designed to address the limitations of existing models in capturing local dependencies and complex structures when dealing with sparse and heterogeneous graph data. GCL-GCN introduces an innovative Graphormer module that combines centrality encoding and spatial relationships, effectively capturing both global and local information between nodes, thereby enhancing the quality of node representations. Additionally, we propose a novel contrastive learning module that significantly enhances the discriminative power of feature representations. In the pre-training phase, this module increases feature distinction through contrastive learning on the original feature matrix, ensuring more identifiable initial representations for subsequent graph convolution and clustering tasks. Extensive experimental results on six datasets demonstrate that GCL-GCN outperforms 14 advanced methods in terms of clustering quality and robustness. Specifically, on the Cora dataset, it improves ACC, NMI, and ARI by 4.94%, 13.01%, and 10.97%, respectively, compared to the primary comparison method MBN.