Whole-Graph Representation Learning For the Classification of Signed Networks

📄 arXiv: 2409.20073v1 📥 PDF

作者: Noé Cecillon, Vincent Labatut, Richard Dufour, Nejat Arınık

分类: cs.LG, cs.NE, cs.SI

发布日期: 2024-09-30

期刊: IEEE Access, 12:151303-151316, 2024

DOI: 10.1109/ACCESS.2024.3472474


💡 一句话要点

针对符号网络分类,提出两种全局图表示学习方法SG2V和WSGCN。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 符号网络 图表示学习 全局图表示 图分类 图神经网络 Weisfeiler-Lehman算法 Graph2vec SGCN

📋 核心要点

  1. 现有图表示学习方法主要集中于无符号图,忽略了符号网络中正负关系的建模。
  2. 论文提出SG2V和WSGCN两种全局图表示学习方法,分别基于Graph2vec和SGCN进行扩展,以适应符号网络。
  3. 实验结果表明,提出的方法在符号图分类任务上优于基线方法,F-measure最高提升超过20%。

📝 摘要(中文)

图结构在建模复杂系统中无处不在。因此,图表示学习,旨在自动学习图的低维表示,近年来备受关注。现有方法绝大多数处理无符号图。然而,符号图在越来越多的应用领域中出现,用于建模涉及两种对立关系(正/负)的系统。一些作者对符号图感兴趣,并提出了提供顶点级别表示的方法,但只有一种方法用于全局图表示,并且它只能处理完全连接的图。本文通过提出两种学习一般符号图的全局图表示的方法来解决这个问题。第一种是SG2V,是全局图嵌入方法Graph2vec的符号泛化,它依赖于Weisfeiler-Lehman重标记过程的修改。第二种是WSGCN,是符号顶点嵌入方法SGCN的全局图泛化,它依赖于将主节点引入GCN。我们提出了这两种方法的几种变体。全局图方法开发的一个瓶颈是缺乏数据。我们构建了一个由三个具有相应ground truth的符号图集合组成的基准。我们在该基准上评估了我们的方法,结果表明,符号全局图方法可以为此任务学习更好的表示。总体而言,基线获得了58.57的F-measure分数,而SG2V和WSGCN分别达到了73.01和81.20。我们的源代码和基准数据集都可以在网上公开获得。

🔬 方法详解

问题定义:现有图表示学习方法在处理符号网络时存在不足,特别是全局图表示学习方面,缺乏有效的方法。现有的全局图表示方法要么无法处理符号图,要么只能处理完全连接的符号图,限制了其应用范围。

核心思路:论文的核心思路是扩展现有的无符号图表示学习方法,使其能够处理符号图,并学习全局图级别的表示。通过引入符号信息和修改现有的图神经网络结构,使模型能够捕捉符号网络中的正负关系,从而更好地进行图分类。

技术框架:论文提出了两种方法:SG2V和WSGCN。SG2V是Graph2vec的符号泛化,通过修改Weisfeiler-Lehman重标记过程来适应符号图。WSGCN是SGCN的全局图泛化,通过引入主节点到GCN中来实现。整体流程包括:1)图数据预处理;2)使用SG2V或WSGCN学习图表示;3)使用学习到的图表示进行图分类。

关键创新:论文的关键创新在于提出了两种针对符号网络的全局图表示学习方法。SG2V通过修改Weisfeiler-Lehman算法,使其能够处理符号图,并学习全局图表示。WSGCN通过引入主节点,将SGCN扩展到全局图表示学习,从而能够捕捉符号网络中的全局结构信息。

关键设计:SG2V的关键设计在于修改了Weisfeiler-Lehman重标记过程,使其能够区分正负边,并生成不同的节点标签。WSGCN的关键设计在于引入了主节点,并将所有节点连接到主节点,从而实现了全局图信息的聚合。损失函数采用交叉熵损失函数,用于图分类任务的训练。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,提出的SG2V和WSGCN方法在符号图分类任务上取得了显著的性能提升。在三个公开数据集上,SG2V和WSGCN分别达到了73.01和81.20的F-measure分数,而基线方法仅为58.57。WSGCN在所有数据集上均优于SG2V,表明其能够更好地捕捉符号网络中的全局结构信息。

🎯 应用场景

该研究成果可应用于社交网络分析、金融风险评估、生物信息学等领域。例如,在社交网络中,可以利用符号图表示用户之间的信任和不信任关系,从而进行用户行为预测和社区发现。在金融领域,可以利用符号图表示公司之间的合作和竞争关系,从而进行风险评估和投资决策。在生物信息学中,可以利用符号图表示基因之间的相互作用关系,从而进行疾病预测和药物发现。

📄 摘要(原文)

Graphs are ubiquitous for modeling complex systems involving structured data and relationships. Consequently, graph representation learning, which aims to automatically learn low-dimensional representations of graphs, has drawn a lot of attention in recent years. The overwhelming majority of existing methods handle unsigned graphs. However, signed graphs appear in an increasing number of application domains to model systems involving two types of opposed relationships. Several authors took an interest in signed graphs and proposed methods for providing vertex-level representations, but only one exists for whole-graph representations, and it can handle only fully connected graphs. In this article, we tackle this issue by proposing two approaches to learning whole-graph representations of general signed graphs. The first is a SG2V, a signed generalization of the whole-graph embedding method Graph2vec that relies on a modification of the Weisfeiler--Lehman relabelling procedure. The second one is WSGCN, a whole-graph generalization of the signed vertex embedding method SGCN that relies on the introduction of master nodes into the GCN. We propose several variants of both these approaches. A bottleneck in the development of whole-graph-oriented methods is the lack of data. We constitute a benchmark composed of three collections of signed graphs with corresponding ground truths. We assess our methods on this benchmark, and our results show that the signed whole-graph methods learn better representations for this task. Overall, the baseline obtains an F-measure score of 58.57, when SG2V and WSGCN reach 73.01 and 81.20, respectively. Our source code and benchmark dataset are both publicly available online.