Integrating Structural and Semantic Signals in Text-Attributed Graphs with BiGTex
作者: Azadeh Beiranvand, Seyed Mehdi Vahidipour
分类: cs.CL, cs.AI
发布日期: 2025-04-16 (更新: 2025-10-23)
备注: 26 pages, 4 figures
💡 一句话要点
BiGTex:通过双向图文融合单元,整合文本属性图中的结构和语义信息。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本属性图 图神经网络 大型语言模型 双向融合 节点分类
📋 核心要点
- 文本属性图需要模型同时捕获节点关联文本的语义丰富性和图的结构依赖性,现有方法难以兼顾。
- BiGTex通过堆叠图文融合单元,实现GNN和LLM的紧密集成,允许文本和结构表示之间的双向信息流动。
- 实验表明,BiGTex在节点分类任务上达到SOTA,并能有效泛化到链接预测任务,证明了其有效性。
📝 摘要(中文)
本文提出BiGTex(Bidirectional Graph Text),一种新颖的架构,通过堆叠的图文融合单元紧密集成图神经网络(GNN)和大型语言模型(LLM),以解决文本属性图(TAG)表示学习中的挑战。每个单元允许文本和结构表示之间的相互注意,使信息能够双向流动,文本影响结构,结构指导文本解释。该架构使用参数高效的微调(LoRA)进行训练,保持LLM冻结,同时适应特定任务的信号。在五个基准数据集上的大量实验表明,BiGTex在节点分类中实现了最先进的性能,并有效地推广到链接预测。消融研究进一步突出了软提示和双向注意在该模型成功中的重要性。
🔬 方法详解
问题定义:文本属性图(TAG)的表示学习问题,旨在同时利用图中节点的文本信息和图结构信息。现有方法,如图神经网络(GNNs),擅长处理图结构信息,但缺乏处理非结构化文本的能力;而大型语言模型(LLMs)擅长文本理解,但通常忽略图结构信息。如何有效地融合这两种信息是关键挑战。
核心思路:BiGTex的核心思路是通过双向的图文融合单元,让文本信息和图结构信息相互影响、相互增强。文本信息可以指导图结构信息的学习,反之,图结构信息也可以帮助更好地理解文本信息。这种双向交互能够更全面地捕捉文本属性图的特征。
技术框架:BiGTex的整体架构由堆叠的图文融合单元组成。每个单元包含两个主要部分:图表示学习模块(例如GNN)和文本表示学习模块(例如LLM)。在每个单元中,文本表示和图表示通过注意力机制进行交互,信息可以双向流动。整个模型使用参数高效的微调方法(LoRA)进行训练,其中LLM的参数被冻结,只有少量参数需要更新。
关键创新:BiGTex的关键创新在于双向图文融合单元的设计,它允许文本和结构信息进行双向交互。这种双向交互使得模型能够更好地理解文本属性图的复杂关系。此外,使用软提示(soft prompting)进一步提升了模型的性能。
关键设计:BiGTex使用堆叠的图文融合单元,每个单元都包含一个GNN层和一个LLM层。GNN层负责学习图结构信息,LLM层负责学习文本信息。在每个单元中,文本表示和图表示通过注意力机制进行交互。具体来说,文本表示作为query,图表示作为key和value,计算注意力权重,然后将加权后的图表示与文本表示融合。反之亦然。模型使用交叉熵损失函数进行训练,并使用AdamW优化器进行优化。
📊 实验亮点
BiGTex在五个基准数据集上进行了广泛的实验,结果表明其在节点分类任务上取得了state-of-the-art的性能。此外,BiGTex还成功地泛化到了链接预测任务。消融实验表明,双向注意力机制和软提示对模型的性能至关重要。例如,在Cora数据集上,BiGTex相比于现有最佳方法提升了2%的准确率。
🎯 应用场景
BiGTex可应用于多种场景,例如社交网络分析、知识图谱推理、论文引用网络分析等。通过整合文本和图结构信息,BiGTex能够更准确地进行节点分类、链接预测等任务,从而为相关应用提供更可靠的支持。该研究的成果有助于推动图神经网络和自然语言处理的交叉研究,并为构建更智能的图数据分析系统奠定基础。
📄 摘要(原文)
Text-attributed graphs (TAGs) present unique challenges in representation learning by requiring models to capture both the semantic richness of node-associated texts and the structural dependencies of the graph. While graph neural networks (GNNs) excel at modeling topological information, they lack the capacity to process unstructured text. Conversely, large language models (LLMs) are proficient in text understanding but are typically unaware of graph structure. In this work, we propose BiGTex (Bidirectional Graph Text), a novel architecture that tightly integrates GNNs and LLMs through stacked Graph-Text Fusion Units. Each unit allows for mutual attention between textual and structural representations, enabling information to flow in both directions, text influencing structure and structure guiding textual interpretation. The proposed architecture is trained using parameter-efficient fine-tuning (LoRA), keeping the LLM frozen while adapting to task-specific signals. Extensive experiments on five benchmark datasets demonstrate that BiGTex achieves state-of-the-art performance in node classification and generalizes effectively to link prediction. An ablation study further highlights the importance of soft prompting and bi-directional attention in the model's success.