Attributed Graph Clustering with Multi-Scale Weight-Based Pairwise Coarsening and Contrastive Learning
作者: Binxiong Li, Yuefei Wang, Binyu Zhao, Heyang Gao, Benhan Yang, Quanzhou Luo, Xue Li, Xu Xiang, Yujie Liu, Huijie Tang
分类: cs.LG
发布日期: 2025-07-28
备注: The source code for this study is available at https://github.com/YF-W/MPCCL
期刊: Neurocomputing, Vol.648, Article 130796, 2025
DOI: 10.1016/j.neucom.2025.130796
💡 一句话要点
提出MPCCL模型,通过多尺度图粗化和对比学习提升属性图聚类性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 属性图聚类 多尺度粗化 对比学习 图神经网络 自监督学习
📋 核心要点
- 现有属性图聚类方法难以捕捉长程依赖,易出现特征崩溃和信息丢失问题。
- MPCCL模型采用多尺度粗化策略,保留关键结构信息,并使用一对多对比学习增强特征多样性。
- 实验结果表明,MPCCL在多个数据集上显著提升了聚类性能,例如在ACM数据集上NMI提升了15.24%。
📝 摘要(中文)
本研究提出了一种多尺度权重配对粗化和对比学习(MPCCL)模型,用于属性图聚类,有效弥补了现有方法在长程依赖、特征崩溃和信息丢失方面的不足。传统方法由于依赖低阶属性信息,难以捕捉高阶图特征;对比学习技术过度强调局部邻域结构,导致特征多样性受限。传统的图粗化方法虽然降低了图的规模,但经常丢失细粒度的结构细节。MPCCL通过创新的多尺度粗化策略解决这些挑战,逐步压缩图,同时优先合并基于全局节点相似度的关键边,以保留重要的结构信息。它进一步引入了一种一对多的对比学习范式,将节点嵌入与增强的图视图和聚类中心集成,以增强特征多样性,同时减轻由多尺度粗化过程中高频节点权重累积引起的特征掩蔽问题。通过将图重建损失和KL散度纳入其自监督学习框架,MPCCL确保了节点表示的跨尺度一致性。实验评估表明,MPCCL在聚类性能方面取得了显著的提高,包括在ACM数据集上NMI提高了15.24%,并在Citeseer、Cora和DBLP等较小规模的数据集上取得了显著的鲁棒性提升。
🔬 方法详解
问题定义:属性图聚类旨在将图中节点划分到不同的簇中,同时考虑节点属性和图结构信息。现有方法的痛点在于:1)难以捕捉长程依赖关系,忽略了高阶图特征;2)对比学习方法过度关注局部邻域,导致特征多样性不足;3)图粗化方法容易丢失细粒度的结构信息。
核心思路:MPCCL的核心思路是通过多尺度图粗化保留关键结构信息,并结合对比学习增强特征表示。多尺度粗化逐步简化图结构,同时保留重要边连接,避免信息丢失。对比学习则通过引入增强的图视图和聚类中心,提高特征的多样性和鲁棒性。
技术框架:MPCCL模型主要包含以下几个模块:1)多尺度权重配对粗化模块:逐步合并节点,降低图的规模,同时保留重要的结构信息。2)对比学习模块:通过对比节点嵌入、增强的图视图和聚类中心,学习更具区分性的节点表示。3)图重建模块:通过重建原始图结构,保证节点表示的跨尺度一致性。4)自监督学习框架:结合图重建损失和KL散度,优化模型参数。
关键创新:MPCCL的关键创新在于:1)提出了多尺度权重配对粗化策略,有效保留了图的结构信息,避免了信息丢失。2)引入了一对多的对比学习范式,增强了特征的多样性,缓解了特征掩蔽问题。3)构建了跨尺度的自监督学习框架,保证了节点表示的一致性。
关键设计:在多尺度粗化中,使用节点相似度作为边权重的依据,优先合并相似度高的节点。在对比学习中,采用了InfoNCE损失函数,最大化节点嵌入与其对应正样本之间的互信息,最小化与负样本之间的互信息。图重建损失采用交叉熵损失函数,衡量重建图与原始图之间的差异。KL散度用于约束不同尺度下的节点表示分布。
📊 实验亮点
MPCCL模型在多个数据集上取得了显著的性能提升。在ACM数据集上,NMI指标提升了15.24%。在Citeseer、Cora和DBLP等数据集上,也取得了显著的鲁棒性提升。这些结果表明,MPCCL模型能够有效捕捉图的结构信息和节点属性,从而提高聚类性能。
🎯 应用场景
MPCCL模型可应用于社交网络分析、生物信息学、推荐系统等领域。在社交网络中,可以用于发现具有相似兴趣或行为的用户群体。在生物信息学中,可以用于识别具有相似功能的基因或蛋白质。在推荐系统中,可以用于将用户划分到不同的兴趣群体,从而提供更个性化的推荐服务。该研究的未来影响在于为属性图聚类提供了一种更有效、更鲁棒的解决方案。
📄 摘要(原文)
This study introduces the Multi-Scale Weight-Based Pairwise Coarsening and Contrastive Learning (MPCCL) model, a novel approach for attributed graph clustering that effectively bridges critical gaps in existing methods, including long-range dependency, feature collapse, and information loss. Traditional methods often struggle to capture high-order graph features due to their reliance on low-order attribute information, while contrastive learning techniques face limitations in feature diversity by overemphasizing local neighborhood structures. Similarly, conventional graph coarsening methods, though reducing graph scale, frequently lose fine-grained structural details. MPCCL addresses these challenges through an innovative multi-scale coarsening strategy, which progressively condenses the graph while prioritizing the merging of key edges based on global node similarity to preserve essential structural information. It further introduces a one-to-many contrastive learning paradigm, integrating node embeddings with augmented graph views and cluster centroids to enhance feature diversity, while mitigating feature masking issues caused by the accumulation of high-frequency node weights during multi-scale coarsening. By incorporating a graph reconstruction loss and KL divergence into its self-supervised learning framework, MPCCL ensures cross-scale consistency of node representations. Experimental evaluations reveal that MPCCL achieves a significant improvement in clustering performance, including a remarkable 15.24% increase in NMI on the ACM dataset and notable robust gains on smaller-scale datasets such as Citeseer, Cora and DBLP.