Unifying Text Semantics and Graph Structures for Temporal Text-attributed Graphs with Large Language Models

📄 arXiv: 2503.14411v3 📥 PDF

作者: Siwei Zhang, Yun Xiong, Yateng Tang, Jiarong Xu, Xi Chen, Zehao Gu, Xuezheng Hao, Zian Jia, Jiawei Zhang

分类: cs.CL, cs.AI

发布日期: 2025-03-18 (更新: 2025-09-24)

备注: Accepted by NeurIPS 2025


💡 一句话要点

提出CROSS框架,利用LLM统一文本语义与图结构,提升时序文本属性图建模性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时序图神经网络 文本属性图 大型语言模型 语义提取 图结构 链路预测 节点分类

📋 核心要点

  1. 现有TGNNs在处理时序文本属性图时,静态嵌入文本并过度依赖结构信息,忽略了文本语义的时序演化。
  2. CROSS框架利用大型语言模型动态提取文本语义,并通过语义-结构协同编码器统一语义和结构信息,实现相互增强。
  3. 实验结果表明,CROSS在多个数据集上显著优于现有方法,在时序链路预测和节点分类任务上均有大幅提升。

📝 摘要(中文)

时序图神经网络(TGNNs)在时序图建模中表现出色。然而,现实世界的时序图通常包含丰富的文本信息,形成时序文本属性图(TTAGs)。动态文本语义和演化图结构的结合带来了更高的复杂性。现有的TGNNs静态地嵌入文本,并且严重依赖于偏向于结构信息的编码机制,忽略了文本语义的时序演化以及语义和结构之间协同增强的关键相互作用。为了解决这些问题,我们提出了CROSS,一个灵活的框架,可以无缝地扩展现有的TGNNs用于TTAG建模。CROSS的设计将TTAG建模过程分解为两个阶段:(i)时序语义提取;(ii)语义-结构信息统一。核心思想是利用大型语言模型(LLMs)动态地提取文本空间中的时序语义,然后生成统一语义和结构的连贯表示。具体来说,我们在CROSS框架中提出了一个时序语义提取器,它使LLMs能够提供节点文本邻域演化上下文的时序语义理解,从而促进语义动态性。随后,我们引入了语义-结构协同编码器,它与上述提取器协作,通过联合考虑语义和结构信息,同时鼓励它们之间的相互增强,来合成具有启发性的表示。大量的实验表明,CROSS在四个公共数据集和一个工业数据集上实现了最先进的结果,在时序链路预测中平均绝对MRR增益为24.7%,在工业应用的节点分类中AUC增益为3.7%。

🔬 方法详解

问题定义:现有的时序图神经网络(TGNNs)在处理时序文本属性图(TTAGs)时,主要存在两个痛点。一是静态地嵌入文本信息,无法捕捉文本语义随时间演化的动态性。二是过度依赖图结构信息,忽略了文本语义与图结构之间的相互作用,导致模型无法充分利用TTAG中蕴含的丰富信息。

核心思路:CROSS框架的核心思路是利用大型语言模型(LLMs)强大的语义理解能力,动态地提取文本的时序语义信息,并将其与图结构信息进行有效融合。通过这种方式,模型可以更好地理解TTAG中的动态语义和结构关系,从而提升建模性能。这种设计旨在克服现有方法中静态文本嵌入和结构偏好的局限性。

技术框架:CROSS框架主要包含两个阶段:时序语义提取和语义-结构信息统一。在时序语义提取阶段,利用Temporal Semantics Extractor,该模块赋能LLM理解节点文本邻域演化上下文的时序语义,促进语义动态性。在语义-结构信息统一阶段,利用Semantic-structural Co-encoder,该模块与时序语义提取器协同工作,联合考虑语义和结构信息,并鼓励它们之间的相互增强,从而合成具有启发性的表示。

关键创新:CROSS框架的关键创新在于引入了Temporal Semantics Extractor,该模块利用LLM动态提取文本的时序语义信息,克服了现有方法中静态文本嵌入的局限性。此外,Semantic-structural Co-encoder通过联合考虑语义和结构信息,并鼓励它们之间的相互增强,实现了更有效的信息融合。

关键设计:Temporal Semantics Extractor的具体实现细节(例如,LLM的选择、prompt的设计、文本的处理方式等)以及Semantic-structural Co-encoder的网络结构、损失函数和参数设置等,论文中可能包含更详细的信息。这些设计细节对于模型的性能至关重要,需要根据具体的应用场景进行调整和优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CROSS框架在四个公共数据集和一个工业数据集上取得了最先进的性能。在时序链路预测任务中,CROSS平均绝对MRR增益为24.7%。在工业应用的节点分类任务中,CROSS的AUC增益为3.7%。这些结果表明,CROSS框架能够有效地利用文本语义和图结构信息,提升时序图建模的性能。

🎯 应用场景

CROSS框架具有广泛的应用前景,例如社交网络分析、金融风险预测、知识图谱推理等。通过对时序文本属性图进行建模,可以更好地理解用户行为、预测市场趋势、发现潜在风险,从而为决策提供支持。该研究的成果有望推动相关领域的发展,并为实际应用带来价值。

📄 摘要(原文)

Temporal graph neural networks (TGNNs) have shown remarkable performance in temporal graph modeling. However, real-world temporal graphs often possess rich textual information, giving rise to temporal text-attributed graphs (TTAGs). Such combination of dynamic text semantics and evolving graph structures introduces heightened complexity. Existing TGNNs embed texts statically and rely heavily on encoding mechanisms that biasedly prioritize structural information, overlooking the temporal evolution of text semantics and the essential interplay between semantics and structures for synergistic reinforcement. To tackle these issues, we present \textbf{CROSS}, a flexible framework that seamlessly extends existing TGNNs for TTAG modeling. CROSS is designed by decomposing the TTAG modeling process into two phases: (i) temporal semantics extraction; and (ii) semantic-structural information unification. The key idea is to advance the large language models (LLMs) to dynamically extract the temporal semantics in text space and then generate cohesive representations unifying both semantics and structures. Specifically, we propose a Temporal Semantics Extractor in the CROSS framework, which empowers LLMs to offer the temporal semantic understanding of node's evolving contexts of textual neighborhoods, facilitating semantic dynamics. Subsequently, we introduce the Semantic-structural Co-encoder, which collaborates with the above Extractor for synthesizing illuminating representations by jointly considering both semantic and structural information while encouraging their mutual reinforcement. Extensive experiments show that CROSS achieves state-of-the-art results on four public datasets and one industrial dataset, with 24.7% absolute MRR gain on average in temporal link prediction and 3.7% AUC gain in node classification of industrial application.