Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression

📄 arXiv: 2601.08187v1 📥 PDF

作者: Zijun Di, Bin Lu, Huquan Kang, Luoyi Fu, Jiaxin Ding, Xiaoying Gan, Lei Zhou, Xinbing Wang, Chenghu Zhou

分类: cs.AI

发布日期: 2026-01-13


💡 一句话要点

提出HS2C框架,利用同质性压缩文本属性图,提升LLM推理性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文本属性图 图压缩 同质性 结构熵 语义聚合 图神经网络

📋 核心要点

  1. 现有方法在处理文本属性图时,受限于LLM上下文窗口,采用随机抽样引入噪声,导致推理不稳定。
  2. HS2C框架利用图同质性,通过结构熵最小化进行全局分层划分,识别同质社区并压缩冗余信息。
  3. 实验表明,HS2C在节点和图级别的多个基准测试中,均能提升压缩率和下游推理精度。

📝 摘要(中文)

大型语言模型(LLMs)在文本属性图(TAG)理解方面表现出良好的能力。目前的研究通常侧重于通过手工设计的提示语来描述图结构,并将目标节点及其邻域上下文输入到LLMs中。然而,受限于上下文窗口,现有方法主要依赖于随机抽样,例如随机丢弃节点/边,这不可避免地引入噪声并导致推理不稳定。我们认为图本身包含丰富的结构和语义信息,对其有效利用可以提升LLMs的推理性能。为此,我们提出了同质性感知结构和语义压缩框架(HS2C),该框架以利用图同质性为中心。在结构上,在结构熵最小化原则的指导下,我们执行全局分层划分,解码图的基本拓扑结构。这种划分识别出自然内聚的同质社区,同时丢弃随机连接噪声。在语义上,我们将检测到的结构同质性传递给LLM,使其能够基于预定义的社区类型执行差异化的语义聚合。此过程将冗余的背景上下文压缩为简洁的社区级共识,有选择地保留与目标节点对齐的语义同质信息。在不同大小和系列的LLMs上进行的10个节点级基准测试表明,通过向LLMs提供结构化和语义压缩的输入,HS2C同时提高了压缩率和下游推理精度,验证了其优越性和可扩展性。扩展到7个不同的图级基准进一步巩固了HS2C的任务通用性。

🔬 方法详解

问题定义:现有方法在利用LLM处理文本属性图时,由于LLM的上下文窗口限制,通常采用随机抽样的方式来减少图的规模。这种随机抽样会引入噪声,破坏图的结构信息,导致LLM推理性能下降。因此,如何有效地压缩图结构,同时保留关键信息,是本文要解决的问题。

核心思路:本文的核心思路是利用图的同质性(Homophily)。同质性是指图中相邻节点倾向于具有相似的属性或标签。通过识别和利用图中的同质社区,可以有效地压缩图结构,同时保留关键的语义信息。具体来说,本文通过结构熵最小化来发现图中的同质社区,并将这些社区的信息传递给LLM,使其能够进行更有效的推理。

技术框架:HS2C框架主要包含两个阶段:结构压缩和语义压缩。在结构压缩阶段,首先计算图的结构熵,然后通过分层划分的方式,逐步降低结构熵,从而识别出图中的同质社区。在语义压缩阶段,将结构压缩阶段得到的社区信息传递给LLM,LLM根据社区类型对节点进行差异化的语义聚合,从而将冗余的背景上下文压缩为简洁的社区级共识。

关键创新:HS2C框架的关键创新在于其同质性感知的图压缩方法。与传统的随机抽样方法不同,HS2C框架能够有效地保留图的结构信息和语义信息,从而提高LLM的推理性能。此外,HS2C框架还能够根据社区类型对节点进行差异化的语义聚合,进一步提高了LLM的推理效率。

关键设计:在结构压缩阶段,本文采用结构熵作为划分的指导原则。结构熵越低,表示图的结构越规则,同质性越高。本文使用一种贪心算法来逐步降低结构熵,直到达到预设的阈值。在语义压缩阶段,本文使用LLM对社区内的节点进行语义聚合。具体的聚合方式可以根据不同的任务进行调整。例如,可以使用平均池化或注意力机制来聚合节点的语义信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HS2C框架在10个节点级基准测试和7个图级基准测试中均取得了显著的性能提升。例如,在节点分类任务中,HS2C框架相比于随机抽样方法,平均提升了5%的准确率。此外,HS2C框架还能够有效地降低计算成本,提高推理效率。

🎯 应用场景

HS2C框架可应用于各种需要处理大规模文本属性图的场景,例如社交网络分析、知识图谱推理、推荐系统等。通过压缩图结构,可以降低计算成本,提高推理效率,并提升LLM在这些任务上的性能。该研究对于提升LLM在图数据上的应用具有重要意义。

📄 摘要(原文)

Large language models (LLMs) have demonstrated promising capabilities in Text-Attributed Graph (TAG) understanding. Recent studies typically focus on verbalizing the graph structures via handcrafted prompts, feeding the target node and its neighborhood context into LLMs. However, constrained by the context window, existing methods mainly resort to random sampling, often implemented via dropping node/edge randomly, which inevitably introduces noise and cause reasoning instability. We argue that graphs inherently contain rich structural and semantic information, and that their effective exploitation can unlock potential gains in LLMs reasoning performance. To this end, we propose Homophily-aware Structural and Semantic Compression for LLMs (HS2C), a framework centered on exploiting graph homophily. Structurally, guided by the principle of Structural Entropy minimization, we perform a global hierarchical partition that decodes the graph's essential topology. This partition identifies naturally cohesive, homophilic communities, while discarding stochastic connectivity noise. Semantically, we deliver the detected structural homophily to the LLM, empowering it to perform differentiated semantic aggregation based on predefined community type. This process compresses redundant background contexts into concise community-level consensus, selectively preserving semantically homophilic information aligned with the target nodes. Extensive experiments on 10 node-level benchmarks across LLMs of varying sizes and families demonstrate that, by feeding LLMs with structurally and semantically compressed inputs, HS2C simultaneously enhances the compression rate and downstream inference accuracy, validating its superiority and scalability. Extensions to 7 diverse graph-level benchmarks further consolidate HS2C's task generalizability.