CITE: A Comprehensive Benchmark for Heterogeneous Text-Attributed Graphs on Catalytic Materials

📄 arXiv: 2508.15392v1 📥 PDF

作者: Chenghao Zhang, Qingqing Long, Ludi Wang, Wenjuan Cui, Jianjun Yu, Yi Du

分类: cs.LG, cs.CL

发布日期: 2025-08-21

备注: 23 pages, 4 figures,


💡 一句话要点

CITE:催化材料异构文本属性图综合基准数据集

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 异构图 文本属性图 基准数据集 催化材料 图神经网络 节点分类 表征学习

📋 核心要点

  1. 现有异构文本属性图缺乏大规模基准数据集,阻碍了相关表征学习方法的发展和公平比较。
  2. 论文构建了首个大规模催化材料异构文本属性引用图基准数据集CITE,包含丰富的节点和边信息。
  3. 通过节点分类任务的基准测试和消融实验,全面评估了不同建模范式在CITE上的性能表现。

📝 摘要(中文)

文本属性图(TAGs)在现实世界系统中普遍存在,其中每个节点都带有自己的文本特征。在许多情况下,这些图本质上是异构的,包含多种节点类型和不同的边类型。尽管这种异构TAGs无处不在,但仍然缺乏大规模的基准数据集。这种短缺已经成为一个关键瓶颈,阻碍了异构文本属性图上表征学习方法的发展和公平比较。在本文中,我们介绍了CITE——催化信息文本实体图,这是第一个也是最大的催化材料异构文本属性引用图基准。CITE包含超过43.8万个节点和120万条边,跨越四种关系类型。此外,我们建立了标准化的评估程序,并对节点分类任务进行了广泛的基准测试,以及对CITE的异构和文本属性进行了消融实验。我们比较了四类学习范式,包括同构图模型、异构图模型、以LLM(大型语言模型)为中心的模型以及LLM+图模型。总而言之,我们提供了(i)CITE数据集的概述,(ii)标准化的评估协议,以及(iii)跨不同建模范式的基线和消融实验。

🔬 方法详解

问题定义:论文旨在解决异构文本属性图(Heterogeneous Text-Attributed Graphs, TAGs)领域缺乏大规模基准数据集的问题。现有方法难以在公平、统一的标准下进行评估和比较,阻碍了该领域的发展。特别是催化材料领域,相关研究数据分散,缺乏整合和标准化。

核心思路:论文的核心思路是构建一个大规模、异构的文本属性图基准数据集CITE,该数据集包含丰富的节点类型、边类型和文本属性信息,能够为异构图表征学习方法提供统一的评估平台。通过提供标准化的评估协议和基线模型,促进该领域的研究进展。

技术框架:CITE数据集的构建流程主要包括数据收集、数据清洗、图构建和数据划分等步骤。数据来源于催化材料相关的学术文献,通过信息抽取和实体链接等技术构建节点和边。数据集包含四种关系类型,并对节点进行了文本属性标注。论文还建立了标准化的评估程序,包括节点分类任务的评估指标和数据划分方式。

关键创新:CITE数据集是首个大规模的催化材料异构文本属性引用图基准,其创新之处在于:(1) 数据规模大,包含超过43.8万个节点和120万条边;(2) 图的异构性强,包含多种节点类型和边类型;(3) 节点包含丰富的文本属性信息;(4) 提供标准化的评估协议和基线模型。

关键设计:在数据集构建方面,论文采用了多种数据清洗和预处理技术,以保证数据的质量和一致性。在评估方面,论文选择了节点分类任务作为主要的评估指标,并提供了多种基线模型,包括同构图模型、异构图模型、LLM-centric模型和LLM+Graph模型。论文还进行了消融实验,分析了异构性和文本属性对模型性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在CITE数据集上,LLM+Graph模型通常优于其他模型,表明结合大型语言模型和图结构信息能够有效提升节点分类性能。消融实验表明,异构性和文本属性对模型性能有显著影响,表明CITE数据集能够有效评估模型对异构图和文本信息的利用能力。

🎯 应用场景

CITE数据集可广泛应用于催化材料领域的知识发现、材料设计和性能预测。研究人员可以利用该数据集开发更有效的图神经网络模型,从而加速新材料的研发过程。此外,该数据集也可用于评估和比较不同图表征学习算法的性能,推动相关技术的发展。

📄 摘要(原文)

Text-attributed graphs(TAGs) are pervasive in real-world systems,where each node carries its own textual features. In many cases these graphs are inherently heterogeneous, containing multiple node types and diverse edge types. Despite the ubiquity of such heterogeneous TAGs, there remains a lack of large-scale benchmark datasets. This shortage has become a critical bottleneck, hindering the development and fair comparison of representation learning methods on heterogeneous text-attributed graphs. In this paper, we introduce CITE - Catalytic Information Textual Entities Graph, the first and largest heterogeneous text-attributed citation graph benchmark for catalytic materials. CITE comprises over 438K nodes and 1.2M edges, spanning four relation types. In addition, we establish standardized evaluation procedures and conduct extensive benchmarking on the node classification task, as well as ablation experiments on the heterogeneous and textual properties of CITE. We compare four classes of learning paradigms, including homogeneous graph models, heterogeneous graph models, LLM(Large Language Model)-centric models, and LLM+Graph models. In a nutshell, we provide (i) an overview of the CITE dataset, (ii) standardized evaluation protocols, and (iii) baseline and ablation experiments across diverse modeling paradigms.