A Pure Transformer Pretraining Framework on Text-attributed Graphs

📄 arXiv: 2406.13873v1 📥 PDF

作者: Yu Song, Haitao Mao, Jiachen Xiao, Jingzhe Liu, Zhikai Chen, Wei Jin, Carl Yang, Jiliang Tang, Hui Liu

分类: cs.AI

发布日期: 2024-06-19


💡 一句话要点

提出GSPT:一种纯Transformer的文本属性图预训练框架,提升图间迁移能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图神经网络 预训练 Transformer 文本属性图 特征学习

📋 核心要点

  1. 现有图预训练方法难以应对特征和结构异构性,限制了模型泛化能力。
  2. GSPT框架将图结构作为先验,利用Transformer在统一的特征空间中学习节点交互。
  3. 实验表明,GSPT在节点分类和链接预测任务上表现出色,提升了图间迁移能力。

📝 摘要(中文)

预训练在从大规模数据中获取通用知识方面发挥着关键作用,并在计算机视觉和自然语言处理领域取得了显著成功。然而,由于特征异构性和结构异构性等根本挑战,图领域的进展仍然有限。最近,越来越多的研究致力于利用大型语言模型(LLM)来增强文本属性图(TAG)中的节点特征质量,这证明了其优于传统的词袋模型或word2vec技术。这些高质量的节点特征降低了图结构先前所扮演的关键角色,导致图神经网络(GNN)和与结构无关的多层感知机(MLP)之间的性能差距不大。受此启发,我们引入了一种以特征为中心的预训练视角,将图结构视为先验,并利用丰富的统一特征空间来学习可在图之间泛化的精细交互模式。我们的框架Graph Sequence Pretraining with Transformer(GSPT)通过随机游走采样节点上下文,并采用掩码特征重建来捕获LLM统一特征空间中的成对邻近性,使用标准的Transformer。通过利用统一的文本表示而不是不同的结构,我们的框架在同一域内的图之间实现了显着更好的可迁移性。GSPT可以轻松地适应节点分类和链接预测,并在各种数据集上展示了有希望的实证成功。

🔬 方法详解

问题定义:现有图神经网络预训练方法在处理文本属性图时,面临特征异构性和结构异构性的挑战。传统方法依赖于手工设计的特征或简单的词嵌入,无法充分利用文本信息。此外,图结构的差异性也限制了预训练模型在不同图上的泛化能力。

核心思路:GSPT的核心思路是将图结构视为一种先验知识,重点学习节点特征之间的交互关系。通过利用大型语言模型(LLM)将节点属性转换为统一的特征表示,从而消除特征异构性。然后,使用Transformer模型学习这些特征表示之间的复杂依赖关系,从而提升模型的泛化能力。

技术框架:GSPT框架主要包含以下几个步骤:1) 节点特征编码:使用LLM将节点文本属性编码为统一的特征向量。2) 随机游走采样:通过随机游走生成节点序列,作为Transformer的输入。3) 掩码特征重建:随机掩盖节点序列中的部分特征,并使用Transformer模型进行重建。4) 预训练:通过最小化重建损失来训练Transformer模型。

关键创新:GSPT的关键创新在于其以特征为中心的预训练视角。与传统的图神经网络预训练方法不同,GSPT更加关注节点特征之间的交互关系,而不是图结构本身。这种方法使得模型能够更好地泛化到不同的图结构上,从而提升了图间迁移能力。

关键设计:GSPT使用标准的Transformer模型作为其核心组件。在预训练阶段,采用掩码特征重建作为预训练任务,通过最小化重建损失来训练模型。随机游走的长度和掩码比例是两个重要的超参数,需要根据具体数据集进行调整。此外,LLM的选择也会影响节点特征的质量,从而影响模型的最终性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GSPT在多个文本属性图数据集上进行了实验,结果表明其在节点分类和链接预测任务上均取得了显著的性能提升。与传统的图神经网络和多层感知机相比,GSPT能够更好地利用节点特征之间的交互关系,从而提升模型的泛化能力。实验结果验证了GSPT框架的有效性和优越性。

🎯 应用场景

GSPT框架可应用于各种涉及文本属性图的任务,例如社交网络分析、知识图谱推理、生物信息学等。通过预训练,GSPT可以提升模型在节点分类、链接预测等任务上的性能,并降低对标注数据的依赖。该研究对于推动图神经网络在实际应用中的发展具有重要意义。

📄 摘要(原文)

Pretraining plays a pivotal role in acquiring generalized knowledge from large-scale data, achieving remarkable successes as evidenced by large models in CV and NLP. However, progress in the graph domain remains limited due to fundamental challenges such as feature heterogeneity and structural heterogeneity. Recently, increasing efforts have been made to enhance node feature quality with Large Language Models (LLMs) on text-attributed graphs (TAGs), demonstrating superiority to traditional bag-of-words or word2vec techniques. These high-quality node features reduce the previously critical role of graph structure, resulting in a modest performance gap between Graph Neural Networks (GNNs) and structure-agnostic Multi-Layer Perceptrons (MLPs). Motivated by this, we introduce a feature-centric pretraining perspective by treating graph structure as a prior and leveraging the rich, unified feature space to learn refined interaction patterns that generalizes across graphs. Our framework, Graph Sequence Pretraining with Transformer (GSPT), samples node contexts through random walks and employs masked feature reconstruction to capture pairwise proximity in the LLM-unified feature space using a standard Transformer. By utilizing unified text representations rather than varying structures, our framework achieves significantly better transferability among graphs within the same domain. GSPT can be easily adapted to both node classification and link prediction, demonstrating promising empirical success on various datasets.