GraphCLIP: Enhancing Transferability in Graph Foundation Models for Text-Attributed Graphs

作者: Yun Zhu, Haizhou Shi, Xiaotang Wang, Yongchao Liu, Yaoke Wang, Boci Peng, Chuntao Hong, Siliang Tang

分类: cs.LG, cs.AI

发布日期: 2024-10-14 (更新: 2025-02-24)

备注: Accepted to WWW'25

🔗 代码/项目: GITHUB

💡 一句话要点

GraphCLIP：通过图-文本对比预训练增强文本属性图的迁移能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图神经网络 对比学习 自监督学习 文本属性图 零样本学习 少样本学习 图基础模型

📋 核心要点

现有文本属性图方法过度依赖标签信息，且跨领域零/少样本迁移能力有限，阻碍了模型和数据的扩展。
GraphCLIP通过图-摘要对比预训练，学习具有强大跨领域迁移能力的图基础模型，并结合不变学习和图提示调优。
实验结果表明，GraphCLIP在零样本和少样本设置中均优于现有方法，并在多个下游任务中表现出良好的通用性。

📝 摘要（中文）

本文提出GraphCLIP框架，旨在解决文本属性图（TAGs）方法中对标签信息的过度依赖以及跨领域零/少样本迁移能力有限的问题。GraphCLIP通过自监督对比图-摘要预训练方法，学习具有强大跨领域迁移能力的图基础模型。借助大型语言模型（LLMs）生成并整理大规模图-摘要对数据，并提出一种新颖的图-摘要预训练方法，结合不变学习，以增强图基础模型的跨领域零样本迁移能力。对于少样本学习，提出了一种与预训练目标对齐的图提示调优技术，以减轻灾难性遗忘并最小化学习成本。大量实验表明，GraphCLIP在零样本和少样本设置中均表现出色，并且在各种下游任务中的评估证实了GraphCLIP的通用性。

🔬 方法详解

问题定义：现有文本属性图（TAGs）方法面临两个主要问题：一是严重依赖标签信息，导致标注成本高昂；二是跨领域零/少样本迁移能力有限，难以适应新的数据集和任务。这些问题限制了图神经网络在实际应用中的扩展，阻碍了图基础模型的发展。

核心思路：GraphCLIP的核心思路是通过自监督对比学习，将图结构信息和文本摘要信息对齐，从而学习到具有更强泛化能力的图表示。通过图-摘要对比预训练，模型能够理解图的整体语义，并将其与文本描述联系起来，从而在新的领域和任务中实现更好的迁移性能。

技术框架：GraphCLIP框架主要包含以下几个阶段：1) 数据生成：利用大型语言模型（LLMs）生成大规模图-摘要对数据。2) 预训练：使用对比学习目标，训练图编码器和文本编码器，使相似的图-摘要对在嵌入空间中更接近。3) 不变学习：引入不变学习策略，增强模型对不同领域数据的鲁棒性。4) 提示调优：对于少样本学习，使用图提示调优技术，微调模型参数，以适应特定任务。

关键创新：GraphCLIP的关键创新在于其图-摘要对比预训练方法，以及结合不变学习和图提示调优的策略。与传统的图神经网络方法相比，GraphCLIP不需要大量的标签数据，并且能够更好地迁移到新的领域和任务中。此外，利用LLM生成图摘要数据也是一个创新点。

关键设计：在预训练阶段，GraphCLIP使用对比损失函数，鼓励相似的图-摘要对具有相似的嵌入表示。图编码器可以使用各种图神经网络结构，如GCN、GAT等。文本编码器可以使用预训练的语言模型，如BERT、RoBERTa等。不变学习可以通过添加正则化项来实现，以减少模型对领域特定信息的依赖。图提示调优可以通过在输入图上添加可学习的节点或边来实现，从而引导模型关注重要的图结构信息。

🖼️ 关键图片

📊 实验亮点

GraphCLIP在零样本和少样本学习任务中均取得了显著的性能提升。在零样本学习中，GraphCLIP在多个数据集上超越了现有的图神经网络模型。在少样本学习中，GraphCLIP通过图提示调优，能够快速适应新的任务，并且避免了灾难性遗忘。实验结果表明，GraphCLIP在节点分类、图分类等任务上均取得了领先的性能。

🎯 应用场景

GraphCLIP具有广泛的应用前景，例如：知识图谱补全、社交网络分析、生物信息学、推荐系统等。通过学习通用的图表示，GraphCLIP可以应用于各种不同的图结构数据和任务，降低了模型开发的成本，加速了图神经网络在实际应用中的部署。未来，GraphCLIP可以进一步扩展到处理更大规模的图数据，并与其他模态的信息进行融合，例如图像、音频等。

📄 摘要（原文）

Recently, research on Text-Attributed Graphs (TAGs) has gained significant attention due to the prevalence of free-text node features in real-world applications and the advancements in Large Language Models (LLMs) that bolster TAG methodologies. However, current TAG approaches face two primary challenges: (i) Heavy reliance on label information and (ii) Limited cross-domain zero/few-shot transferability. These issues constrain the scaling of both data and model size, owing to high labor costs and scaling laws, complicating the development of graph foundation models with strong transferability. In this work, we propose the GraphCLIP framework to address these challenges by learning graph foundation models with strong cross-domain zero/few-shot transferability through a self-supervised contrastive graph-summary pretraining method. Specifically, we generate and curate large-scale graph-summary pair data with the assistance of LLMs, and introduce a novel graph-summary pretraining method, combined with invariant learning, to enhance graph foundation models with strong cross-domain zero-shot transferability. For few-shot learning, we propose a novel graph prompt tuning technique aligned with our pretraining objective to mitigate catastrophic forgetting and minimize learning costs. Extensive experiments show the superiority of GraphCLIP in both zero-shot and few-shot settings, while evaluations across various downstream tasks confirm the versatility of GraphCLIP. Our code is available at: https://github.com/ZhuYun97/GraphCLIP

GraphCLIP: Enhancing Transferability in Graph Foundation Models for Text-Attributed Graphs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理