When Graph Tokens Sink: A Mechanistic Analysis of Graph Language Models
作者: Ding Zhang, Runtao Zhou, Wenqing Zheng, Rizal Fathony, Bayan Bruss, Chirag Agarwal
分类: cs.LG
发布日期: 2026-06-02
💡 一句话要点
分析图语言模型中图标记的机制与局限性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图语言模型 图学习 激活值分析 语义效用 深度学习
📋 核心要点
- 现有的图语言模型在图结构信息的内部表示上存在不清晰的问题,导致图标记的有效性受到质疑。
- 本文通过分析图标记在GLM架构中的行为,探讨了LLMs如何处理图信息,并提出了图标记的显著性与图语义效用之间的解耦。
- 实验结果表明,图沉没标记并不是下游预测中最重要的标记,揭示了现有图标记构建和对齐机制的局限性。
📝 摘要(中文)
图语言模型(GLMs)为将大型语言模型(LLMs)应用于图学习任务提供了新的方向。通过将图拓扑和节点信息转化为图标记,GLMs使得LLMs能够共同处理结构化图输入和文本指令。然而,LLMs如何内部解读这些图标记,以及图标记是否作为图结构的有效载体仍不明确。本文分析了LLMs如何通过图标记行为处理图信息,发现图标记的内部显著性并不等同于图信息的利用,且图沉没标记并非主要的语义或结构载体。
🔬 方法详解
问题定义:本文旨在解决图语言模型(GLMs)中图标记的有效性和内部表示的问题。现有方法未能清晰展示LLMs如何利用图结构信息,导致图标记的实际效用不明确。
核心思路:通过分析图标记在GLM中的行为,本文提出图标记的显著性与图语义效用之间存在解耦,强调了图沉没标记的局限性。
技术框架:研究采用了代表性的GLM架构,分析了图标记的激活值和位置,并通过修剪、重定位和交换干预等方法进行实验验证。
关键创新:本文的主要创新在于揭示了图沉没标记并非主要的语义或结构载体,挑战了传统对图标记重要性的理解。
关键设计:实验中采用了大量的激活值分析,关注隐藏状态维度的变化,并通过多种干预手段验证了图标记的实际效用。实验设计强调了图标记在不同位置的表现差异。
🖼️ 关键图片
📊 实验亮点
实验结果显示,图沉没标记在激活值上表现为异常值,但并未吸引最大的注意力权重,表明其在下游预测中的重要性被低估。通过干预实验,验证了图标记的显著性与其语义效用之间的解耦,揭示了现有GLMs的局限性。
🎯 应用场景
该研究为图语言模型在图学习任务中的应用提供了新的视角,尤其是在图结构信息的有效利用方面。未来,改进图标记的构建和对齐机制将有助于提升图学习任务的性能,推动智能系统在复杂数据结构中的应用。
📄 摘要(原文)
Graph Language Models (GLMs) have become a promising direction for adapting Large Language Models (LLMs) to graph learning tasks. By transforming graph topology and node information into graph tokens, GLMs allow LLMs to jointly process structured graph inputs and textual instructions. Yet, it remains unclear how LLMs internally interpret these graph tokens and whether graph tokens act as meaningful carriers of graph structure. In this work, we analyze how LLMs process graph information through graph-token behavior in representative GLM architectures. Findings. We find that the internal saliency of graph tokens in GLMs is not equivalent to graph information utilization. Graph sink tokens consistently emerge as activation-level outliers: they can be identified by massive activation values along a small set of hidden-state dimensions and are biased toward early graph-token positions. However, this activation-level saliency does not imply that these tokens are the main carriers of graph information. Unlike classical attention sinks in language and vision-language models, graph sink tokens do not necessarily attract the largest attention weights from query tokens. Through pruning, repositioning, and swapping interventions, we show that graph sink tokens are not the most important semantic or structural tokens for downstream prediction. Implications. Together, these results suggest that after current GLMs map graph structure into the LLM token space, the resulting graph-token representations do not naturally form a fully usable topology-aware internal representation; instead, they exhibit a decoupling between activation-level saliency and graph-semantic utility. This decoupling points to limitations in existing graph-token construction, placement, and alignment mechanisms.