TGB 2.0: A Benchmark for Learning on Temporal Knowledge Graphs and Heterogeneous Graphs

📄 arXiv: 2406.09639v2 📥 PDF

作者: Julia Gastinger, Shenyang Huang, Mikhail Galkin, Erfan Loghmani, Ali Parviz, Farimah Poursafaei, Jacob Danovitch, Emanuele Rossi, Ioannis Koutis, Heiner Stuckenschmidt, Reihaneh Rabbany, Guillaume Rabusseau

分类: cs.LG, cs.SI

发布日期: 2024-06-14 (更新: 2024-10-18)

备注: 29 pages, 8 figures, 11 tables, accepted at NeurIPS 2024 Track on Datasets and Benchmarks


💡 一句话要点

TGB 2.0:用于时序知识图谱和异构图学习的基准测试框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时序图学习 知识图谱 异构图 链接预测 基准测试 大规模数据集 可重复性 图神经网络

📋 核心要点

  1. 现有时序图机器学习模型缺乏在大型数据集上的稳健评估和标准化基准,阻碍了研究进展。
  2. TGB 2.0 旨在提供一个可重复且真实的评估流程,专注于大规模时序知识图谱和异构图的链接预测。
  3. 实验表明,边类型信息至关重要,简单基线具有竞争力,现有方法在大型数据集上扩展性不足。

📝 摘要(中文)

多关系时序图是建模现实世界数据的强大工具,能够捕捉实体随时间演变和相互连接的本质。近年来,针对此类图的机器学习提出了许多新颖的模型,这加剧了对稳健评估和标准化基准数据集的需求。然而,此类资源的可用性仍然稀缺,并且由于实验协议中的可重复性问题,评估面临着额外的复杂性。为了应对这些挑战,我们推出了时序图基准测试 2.0 (TGB 2.0),这是一个为评估时序知识图谱和时序异构图上的未来链接预测方法量身定制的新型基准测试框架,重点关注大规模数据集,扩展了时序图基准测试。TGB 2.0 通过提供跨越五个领域的八个新数据集(最多包含 5300 万条边)来促进全面评估。TGB 2.0 数据集在节点、边或时间戳的数量方面明显大于现有数据集。此外,TGB 2.0 为多关系时序图提供了一个可重复且真实的评估流程。通过广泛的实验,我们观察到:1) 利用边类型信息对于获得高性能至关重要;2) 简单的启发式基线通常可以与更复杂的方法竞争;3) 大多数方法无法在我们最大的数据集上运行,这突显了对更具可扩展性的方法进行研究的必要性。

🔬 方法详解

问题定义:论文旨在解决时序知识图谱和异构图上的链接预测问题,现有方法在处理大规模数据集时面临可扩展性挑战,并且缺乏统一的评估基准,导致模型性能难以比较和复现。

核心思路:论文的核心思路是构建一个包含大规模数据集、标准化评估流程和多样化任务的基准测试框架,从而促进时序图学习算法的公平比较和有效评估。通过提供更具挑战性的数据集,推动研究人员开发更具可扩展性和泛化能力的模型。

技术框架:TGB 2.0 框架主要包含以下几个部分:1) 数据集收集与预处理:收集来自不同领域的时序图数据,并进行清洗、转换和划分;2) 评估指标定义:定义用于衡量链接预测性能的指标,如 Hits@K、MRR 等;3) 评估流程设计:设计标准化的训练、验证和测试流程,确保评估结果的可重复性;4) 基线模型实现:实现一系列基线模型,作为性能比较的参考。

关键创新:TGB 2.0 的关键创新在于其大规模数据集和标准化的评估流程。与现有数据集相比,TGB 2.0 的数据集在节点、边和时间戳的数量上都显著增加,更接近真实世界的应用场景。标准化的评估流程确保了不同模型之间的公平比较,并促进了研究结果的可重复性。

关键设计:TGB 2.0 包含八个来自不同领域的数据集,涵盖了知识图谱、社交网络、引文网络等。数据集的规模从几百万到几千万条边不等。评估流程采用时间切片的方式,将数据划分为训练集、验证集和测试集。论文还提供了一系列基线模型的实现,包括基于嵌入的方法、基于图神经网络的方法等。具体参数设置和损失函数根据不同模型进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,利用边类型信息对于获得高性能至关重要。简单的启发式基线在某些数据集上可以与更复杂的方法竞争。然而,大多数现有方法无法在 TGB 2.0 最大的数据集上运行,这突显了对更具可扩展性的方法进行研究的必要性。TGB 2.0 的发布将促进对大规模时序图学习算法的研究。

🎯 应用场景

TGB 2.0 可用于评估和改进时序知识图谱和异构图上的链接预测算法,这些算法广泛应用于推荐系统、社交网络分析、生物信息学等领域。通过提供更具挑战性的基准,TGB 2.0 有助于推动相关领域的研究进展,并促进更高效、更准确的预测模型的开发。

📄 摘要(原文)

Multi-relational temporal graphs are powerful tools for modeling real-world data, capturing the evolving and interconnected nature of entities over time. Recently, many novel models are proposed for ML on such graphs intensifying the need for robust evaluation and standardized benchmark datasets. However, the availability of such resources remains scarce and evaluation faces added complexity due to reproducibility issues in experimental protocols. To address these challenges, we introduce Temporal Graph Benchmark 2.0 (TGB 2.0), a novel benchmarking framework tailored for evaluating methods for predicting future links on Temporal Knowledge Graphs and Temporal Heterogeneous Graphs with a focus on large-scale datasets, extending the Temporal Graph Benchmark. TGB 2.0 facilitates comprehensive evaluations by presenting eight novel datasets spanning five domains with up to 53 million edges. TGB 2.0 datasets are significantly larger than existing datasets in terms of number of nodes, edges, or timestamps. In addition, TGB 2.0 provides a reproducible and realistic evaluation pipeline for multi-relational temporal graphs. Through extensive experimentation, we observe that 1) leveraging edge-type information is crucial to obtain high performance, 2) simple heuristic baselines are often competitive with more complex methods, 3) most methods fail to run on our largest datasets, highlighting the need for research on more scalable methods.