Teaching LLMs to See Graphs: Unifying Text and Structural Reasoning

📄 arXiv: 2605.10247v1 📥 PDF

作者: Dario Vajda

分类: cs.LG

发布日期: 2026-05-11


💡 一句话要点

提出图Transformer语言模型(GTLM),通过原生图注意力偏置实现LLM对图结构数据的直接推理。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图神经网络 大语言模型 注意力机制 图推理 参数高效微调 关系学习 图检索增强生成

📋 核心要点

  1. 现有方法依赖GNN编码器将图信息压缩为单一Token,造成了严重的语义信息丢失与瓶颈。
  2. GTLM通过在LLM注意力模块中注入图感知偏置,实现了对图拓扑的原生处理,无需额外编码器。
  3. 实验表明,1B参数的GTLM在图任务上超越了7B参数模型,并能隐式模拟图神经网络的消息传递过程。

📝 摘要(中文)

利用大语言模型(LLM)处理图结构数据是当前的研究热点,但现有主流方法多依赖于多阶段流水线,通过图神经网络(GNN)编码器将丰富的文本属性压缩为单一标记,导致了严重的语义瓶颈。本文提出了图Transformer语言模型(GTLM),这是一种新型架构,使预训练LLM能够原生处理图拓扑结构,彻底消除了压缩瓶颈。GTLM具有极高的参数效率:通过将图感知注意力偏置直接注入LLM的注意力模块,仅增加了基础模型0.015%的参数量。理论证明,其双向注意力前缀在保持节点置换等变性的同时,实现了与预训练基座模型的完全向后兼容。广泛的评估表明,1B参数的GTLM在标准文本属性图基准测试中表现优于7B参数的最先进模型,并在GraphQA任务上显著超越基线。研究还发现,GTLM注意力头能隐式学习模拟消息传递机制,为LLM内的算法推理提供了可扩展的基础。

🔬 方法详解

问题定义:现有图学习方法通常采用“GNN编码器+LLM”的级联架构,这种方式强制将复杂的图结构和节点属性压缩为离散的Token序列,导致了严重的语义信息丢失,限制了模型对图拓扑结构的深度理解。

核心思路:GTLM的核心思想是“原生化”,即不改变LLM的预训练权重,而是通过在注意力机制中引入图结构偏置,让LLM在处理文本的同时直接感知图的邻接关系,从而消除压缩瓶颈。

技术框架:GTLM在保持基础LLM架构不变的前提下,通过修改注意力计算公式,将图的邻接矩阵信息转化为注意力偏置(Attention Bias),直接作用于Query-Key的匹配过程,使模型在推理时能够动态关注邻居节点。

关键创新:最重要的创新在于引入了双向注意力前缀(Bidirectional Attention Prefix),该设计在理论上保证了节点置换等变性(Permutation Equivariance),并确保了模型与原始预训练LLM的完全向后兼容性,且仅需极少的参数增量。

关键设计:该模型仅引入了0.015%的额外参数,通过将图拓扑信息直接注入注意力层,使模型能够隐式模拟GNN的消息传递(Message Passing)过程,从而在无需大规模微调的情况下实现高效的图结构推理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,1B参数的GTLM在标准文本属性图基准测试中,性能持平或超越了7B参数的最先进模型。在GraphQA任务中,GTLM展现出显著的性能优势。此外,分析表明GTLM的注意力头能够自动演化出模拟消息传递的机制,证明了其在算法推理任务上的卓越表现。

🎯 应用场景

GTLM在知识图谱问答(GraphQA)、复杂关系推理、推荐系统以及下一代GraphRAG(图检索增强生成)领域具有广阔应用前景。它为处理大规模、高维度的关系型数据提供了可扩展的深度学习基础,特别适用于需要结合文本语义与拓扑结构的复杂决策场景。

📄 摘要(原文)

Using Large Language Models (LLMs) to process graph-structured data is an active research area, yet current state-of-the-art approaches typically rely on multi-step pipelines with Graph Neural Network (GNN) encoders that compress rich textual attributes into solitary tokens, creating a significant semantic bottleneck. In this paper, we introduce the Graph Transformer Language Model (GTLM), a novel architecture that enables pretrained LLMs to natively process graph topologies while entirely eliminating this compressive bottleneck. GTLM is exceptionally parameter-efficient: by injecting graph-aware attention biases directly into the LLM's attention modules, it introduces only 0.015% additional parameters relative to the base model. We theoretically prove that our bidirectional attention prefix preserves node permutation equivariance while maintaining exact backward compatibility with the pretrained base model. Extensive evaluations demonstrate that a 1B-parameter GTLM matches or exceeds the performance of 7B-parameter state-of-the-art models on standard Text-Attributed Graph benchmarks, while significantly surpassing baselines on GraphQA. Finally, we demonstrate that GTLM attention heads implicitly learn to simulate message passing, explaining its superior performance on algorithmic tasks. This paradigm shift enables true algorithmic reasoning within LLMs and provides a scalable foundation for next-generation GraphRAG and relational deep learning.