GOFA: A Generative One-For-All Model for Joint Graph Language Modeling

📄 arXiv: 2407.09709v2 📥 PDF

作者: Lecheng Kong, Jiarui Feng, Hao Liu, Chengsong Huang, Jiaxin Huang, Yixin Chen, Muhan Zhang

分类: cs.LG, cs.CL

发布日期: 2024-07-12 (更新: 2025-04-24)

🔗 代码/项目: GITHUB


💡 一句话要点

提出GOFA:一种用于联合图语言建模的生成式One-For-All模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图神经网络 大型语言模型 图基础模型 自监督学习 多任务学习

📋 核心要点

  1. 现有图模型难以兼顾任务泛化性和图结构感知能力,限制了图基础模型的发展。
  2. GOFA模型通过将GNN层嵌入预训练LLM,结合了语义理解和图结构建模的优势。
  3. GOFA在图级预测、问答和结构任务上预训练,并在下游任务上表现出强大的零样本能力。

📝 摘要(中文)

大型语言模型(LLMs)或大型视觉模型(LVMs)等基础模型已成为各自领域中最强大的工具之一。然而,与文本和图像数据不同,图数据没有明确的结构,这给开发图基础模型(GFM)带来了巨大挑战。例如,当前设计通用图模型的尝试要么将图数据转换为语言格式以进行基于LLM的预测,要么仍然训练带有LLM作为辅助的GNN模型。前者可以处理无限的任务,而后者可以更好地捕获图结构——但目前还没有工作能够同时实现这两者。在本文中,我们确定了GFM的三个关键理想属性:自监督预训练、任务的流动性和图感知能力。为了考虑这些属性,我们将传统的语言建模扩展到图领域,并提出了一种新的生成图语言模型GOFA来解决这个问题。该模型将随机初始化的GNN层穿插到冻结的预训练LLM中,从而有机地结合了语义和结构建模能力。GOFA在新的图级下一个词预测、问答和结构任务上进行预训练,以获得上述GFM属性。预训练模型在下游任务上进一步微调,以获得解决任务的能力。微调后的模型在各种下游任务上进行评估,展示了在零样本场景中解决结构和上下文问题的强大能力。

🔬 方法详解

问题定义:现有方法在处理图数据时面临挑战,要么依赖LLM将图转换为序列,损失了图的结构信息,要么使用GNN模型,但泛化能力有限,难以适应多种任务。缺乏一个既能理解图结构又能灵活应用于各种任务的图基础模型。

核心思路:GOFA的核心思路是将预训练的LLM与GNN结合,利用LLM强大的语义理解能力和GNN对图结构的建模能力。通过将GNN层插入到LLM中,实现语义信息和结构信息的有机融合,从而构建一个具有通用性和图感知能力的模型。

技术框架:GOFA模型包含一个预训练的冻结LLM和若干随机初始化的GNN层。GNN层被插入到LLM的Transformer层之间,用于处理图结构信息。整个模型通过多任务预训练进行优化,包括图级下一个词预测、问答和结构任务。预训练完成后,模型可以在下游任务上进行微调。

关键创新:GOFA的关键创新在于将GNN层无缝集成到预训练LLM中,实现了语义和结构信息的有效融合。此外,GOFA采用多任务预训练策略,使其能够学习到通用的图表示,从而在各种下游任务上表现出良好的泛化能力。

关键设计:GOFA的关键设计包括:1) GNN层的选择,可以使用不同的GNN架构,如GCN、GAT等;2) GNN层插入的位置,可以根据LLM的层数和图的复杂度进行调整;3) 预训练任务的设计,需要选择能够充分利用LLM和GNN能力的任务,例如图级下一个词预测、问答和结构任务;4) 损失函数的设计,需要平衡不同预训练任务之间的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GOFA模型在多个下游任务上进行了评估,包括节点分类、图分类和链接预测。实验结果表明,GOFA在零样本场景下表现出强大的性能,优于现有的图神经网络模型。例如,在某些任务上,GOFA的性能提升超过10%。这表明GOFA能够有效地学习到通用的图表示,并将其应用于各种不同的任务。

🎯 应用场景

GOFA模型具有广泛的应用前景,例如:知识图谱推理、药物发现、社交网络分析、推荐系统等。它可以用于解决各种涉及图结构数据的任务,例如节点分类、链接预测、图分类等。GOFA的出现为图基础模型的研究提供了一种新的思路,有望推动图神经网络在更多领域的应用。

📄 摘要(原文)

Foundation models, such as Large Language Models (LLMs) or Large Vision Models (LVMs), have emerged as one of the most powerful tools in the respective fields. However, unlike text and image data, graph data do not have a definitive structure, posing great challenges to developing a Graph Foundation Model (GFM). For example, current attempts at designing general graph models either transform graph data into a language format for LLM-based prediction or still train a GNN model with LLM as an assistant. The former can handle unlimited tasks, while the latter captures graph structure much better -- yet, no existing work can achieve both simultaneously. In this paper, we identify three key desirable properties of a GFM: self-supervised pretraining, fluidity in tasks, and graph awareness. To account for these properties, we extend the conventional language modeling to the graph domain and propose a novel generative graph language model GOFA to solve the problem. The model interleaves randomly initialized GNN layers into a frozen pre-trained LLM so that the semantic and structural modeling abilities are organically combined. GOFA is pre-trained on newly proposed graph-level next-word prediction, question-answering, and structural tasks to obtain the above GFM properties. The pre-trained model is further fine-tuned on downstream tasks to obtain task-solving ability. The fine-tuned model is evaluated on various downstream tasks, demonstrating a strong ability to solve structural and contextual problems in zero-shot scenarios. The code is available at https://github.com/JiaruiFeng/GOFA.