GLBench: A Comprehensive Benchmark for Graph with Large Language Models

📄 arXiv: 2407.07457v4 📥 PDF

作者: Yuhan Li, Peisong Wang, Xiao Zhu, Aochuan Chen, Haiyun Jiang, Deng Cai, Victor Wai Kin Chan, Jia Li

分类: cs.LG, cs.CL

发布日期: 2024-07-10 (更新: 2024-10-29)

🔗 代码/项目: GITHUB


💡 一句话要点

GLBench:用于图与大语言模型结合的综合性评测基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图神经网络 大语言模型 图学习 评测基准 零样本学习 知识图谱 GraphLLM

📋 核心要点

  1. 现有GraphLLM研究缺乏统一的评估标准,阻碍了该领域的深入理解和发展。
  2. GLBench提供了一个全面的基准,用于在监督和零样本场景下评估GraphLLM方法。
  3. 实验表明,GraphLLM在监督学习中优于传统方法,但零样本迁移需要结构和语义信息。

📝 摘要(中文)

大语言模型(LLMs)的出现彻底改变了我们与图交互的方式,从而产生了一种名为GraphLLM的新范式。尽管近年来GraphLLM方法发展迅速,但由于缺乏具有一致实验协议的基准,该领域的进展和理解仍然不清楚。为了弥合这一差距,我们推出了GLBench,这是第一个用于评估监督和零样本场景中GraphLLM方法的综合性基准。GLBench对不同类别的GraphLLM方法以及传统的基线(如图神经网络)进行了公平而彻底的评估。通过对一系列具有一致数据处理和分割策略的真实世界数据集进行的大量实验,我们发现了一些关键发现。首先,GraphLLM方法在监督设置中优于传统基线,其中LLM作为增强器表现出最强大的性能。然而,使用LLM作为预测器效果较差,并且经常导致不可控制的输出问题。我们还注意到,当前GraphLLM方法不存在明确的缩放规律。此外,结构和语义对于有效的零样本迁移至关重要,我们提出的简单基线甚至可以优于几种为零样本场景量身定制的模型。该基准的数据和代码可在https://github.com/NineAbyss/GLBench找到。

🔬 方法详解

问题定义:现有GraphLLM方法缺乏统一的、具有一致实验协议的评测基准,导致不同方法之间的比较困难,阻碍了该领域的系统性研究和发展。现有方法在数据处理、模型选择和评估指标上存在差异,难以公平地评估各种GraphLLM方法的性能。

核心思路:GLBench的核心思路是构建一个全面的、标准化的评测基准,涵盖多种真实世界图数据集、一致的数据处理和分割策略,以及多种GraphLLM方法和传统基线。通过在统一的框架下进行实验,可以更公平、更客观地评估不同方法的性能,从而推动GraphLLM领域的发展。

技术框架:GLBench包含以下主要模块:1) 数据集收集与预处理:收集多个真实世界的图数据集,并进行统一的数据清洗、特征工程和数据集划分。2) 模型实现与集成:集成多种GraphLLM方法(包括LLM作为增强器和LLM作为预测器)以及传统图神经网络作为基线。3) 实验设置与评估:定义一致的实验设置,包括超参数选择、训练策略和评估指标。4) 结果分析与报告:对实验结果进行深入分析,揭示不同方法的优缺点,并提供性能报告。

关键创新:GLBench的关键创新在于其全面性和标准化。它首次提供了一个统一的平台,用于评估各种GraphLLM方法,并揭示了该领域的一些关键发现,例如LLM作为增强器比LLM作为预测器更有效,以及结构和语义信息对于零样本迁移的重要性。此外,GLBench还提供了一个简单的基线方法,该方法在零样本场景下表现出色。

关键设计:GLBench的关键设计包括:1) 数据集的选择:选择具有代表性的真实世界图数据集,涵盖不同的图结构和应用领域。2) 数据分割策略:采用一致的数据分割策略,确保不同方法在相同的数据集上进行训练和评估。3) 评估指标:选择合适的评估指标,以全面衡量不同方法的性能,包括准确率、召回率、F1值等。4) 基线方法的选择:选择具有代表性的传统图神经网络作为基线,以便与GraphLLM方法进行比较。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GraphLLM方法在监督学习中优于传统基线,其中LLM作为增强器表现最佳。然而,使用LLM作为预测器效果较差。研究还发现,当前GraphLLM方法不存在明确的缩放规律,并且结构和语义对于有效的零样本迁移至关重要。一个简单的基线方法在零样本场景下甚至可以优于一些专门设计的模型。

🎯 应用场景

GLBench可用于评估和比较不同的GraphLLM方法,指导模型选择和优化。该基准可以促进GraphLLM在知识图谱推理、社交网络分析、推荐系统、药物发现等领域的应用,并推动图与语言模型结合的进一步研究。

📄 摘要(原文)

The emergence of large language models (LLMs) has revolutionized the way we interact with graphs, leading to a new paradigm called GraphLLM. Despite the rapid development of GraphLLM methods in recent years, the progress and understanding of this field remain unclear due to the lack of a benchmark with consistent experimental protocols. To bridge this gap, we introduce GLBench, the first comprehensive benchmark for evaluating GraphLLM methods in both supervised and zero-shot scenarios. GLBench provides a fair and thorough evaluation of different categories of GraphLLM methods, along with traditional baselines such as graph neural networks. Through extensive experiments on a collection of real-world datasets with consistent data processing and splitting strategies, we have uncovered several key findings. Firstly, GraphLLM methods outperform traditional baselines in supervised settings, with LLM-as-enhancers showing the most robust performance. However, using LLMs as predictors is less effective and often leads to uncontrollable output issues. We also notice that no clear scaling laws exist for current GraphLLM methods. In addition, both structures and semantics are crucial for effective zero-shot transfer, and our proposed simple baseline can even outperform several models tailored for zero-shot scenarios. The data and code of the benchmark can be found at https://github.com/NineAbyss/GLBench.