Graph Hierarchical Recurrence for Long-Range Generalization
作者: Stefano Carotti, Marco Pacini, Alessio Gravina, Davide Bacciu, Bruno Lepri, Sebastiano Bontorin
分类: cs.LG, cs.AI
发布日期: 2026-05-18
💡 一句话要点
提出图分层递归(GHR)框架,解决图神经网络长程泛化问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图神经网络 长程依赖 图分层 图递归 泛化能力 图学习 参数效率
📋 核心要点
- 现有GNN和GT模型在捕获图中远距离节点关系的任务中存在局限性,尤其是在超出训练范围的泛化能力上。
- 论文提出图分层递归(GHR)框架,通过在原始图和其分层抽象上联合操作,增强模型对长程依赖的建模能力。
- 实验表明,GHR在长程依赖任务上显著优于现有模型,同时具有更高的参数效率和更好的超出范围泛化能力。
📝 摘要(中文)
图神经网络(GNNs)和图Transformer(GTs)是目前图学习的基本范例,它们结合了深度模型的表征学习能力和归纳偏置带来的样本效率。尽管它们很有效,但大量研究表明,这些模型在需要捕获图中遥远区域之间相关性的任务中仍然面临根本性的限制。为了解决这个问题,我们引入了图分层递归(GHR),这是一个新颖的框架,它在输入图和通过池化获得的层次抽象上联合操作。我们还表明,现有模型的局限性在超出范围的泛化中更加明显,其中测试实例涉及的交互距离比训练期间观察到的距离更长。相比之下,尽管其设计简单,但GHR提供了三个关键优势:在长程依赖性方面的强大性能,改进的超出范围的泛化以及高参数效率。为了证实这些说法,我们表明,在广泛的长程基准测试中,GHR始终优于现有的图模型,同时仅使用当前最先进模型参数的1%。这些结果表明,与当前扩展架构以获得图基础模型的趋势相比,这是一个互补的方向,表明仅增加模型容量可能不足以进行泛化。
🔬 方法详解
问题定义:现有GNN和GT模型在处理需要捕获长程依赖关系的图学习任务时,性能会显著下降。尤其是在测试数据涉及的节点交互距离远大于训练数据时,模型的泛化能力会受到严重影响。现有方法通常依赖于增加模型复杂度或引入注意力机制,但这些方法往往会带来参数量激增和计算成本增加的问题。
核心思路:GHR的核心思路是利用图的层次结构来辅助长程依赖关系的建模。通过对原始图进行池化操作,构建一个层次化的图结构,使得远距离节点在抽象层面上更容易建立联系。同时,GHR在原始图和抽象图上进行递归操作,从而能够有效地捕获长程依赖关系。
技术框架:GHR框架主要包含以下几个模块:1) 图池化模块:用于构建图的层次结构,将原始图逐步抽象成更小的图。2) 图神经网络模块:用于在原始图和抽象图上进行消息传递和节点特征更新。3) 递归模块:用于在不同层次的图之间进行信息传递,从而实现长程依赖关系的建模。整个框架采用端到端的方式进行训练。
关键创新:GHR的关键创新在于其利用图的层次结构和递归操作来解决长程依赖问题。与现有方法相比,GHR不需要增加大量的模型参数,就能有效地捕获长程依赖关系,并且具有更好的泛化能力。此外,GHR的设计也更加简洁高效。
关键设计:GHR的关键设计包括:1) 图池化策略的选择,例如DiffPool、SAGPool等。2) 图神经网络模块的具体实现,例如GCN、GAT等。3) 递归模块的信息传递方式,例如使用注意力机制来选择性地传递信息。4) 损失函数的设计,例如可以使用交叉熵损失或对比学习损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GHR在多个长程依赖基准测试中显著优于现有模型,例如在某些任务上,GHR的性能提升超过10%。更重要的是,GHR在超出范围的泛化测试中表现出色,表明其具有更强的泛化能力。此外,GHR的参数效率非常高,仅使用现有最先进模型参数的1%就能达到更好的性能。
🎯 应用场景
GHR框架可应用于需要处理长程依赖关系的图学习任务,例如社交网络分析、生物网络建模、知识图谱推理、化学分子性质预测等。该研究成果有助于提升图神经网络在复杂图结构上的建模能力,并为开发更高效、更通用的图学习模型提供新的思路。
📄 摘要(原文)
Graph Neural Networks (GNNs) and Graph Transformers (GTs) are now a fundamental paradigm for graph learning, combining the representation-learning capabilities of deep models with the sample efficiency induced by their inductive biases. Despite their effectiveness, a large body of work has shown that these models still face fundamental limitations in tasks that require capturing correlations between distant regions of a graph. To address this issue, we introduce Graph Hierarchical Recurrence (GHR), a novel framework that operates jointly on the input graph and on a hierarchical abstraction obtained through pooling. We also show that the limitations of existing models are even more pronounced in out-of-range generalization, where test instances involve interactions over distances longer than those observed during training. By contrast, despite its simple design, GHR provides three key advantages: strong performance on long-range dependencies, improved out-of-range generalization, and high parameter efficiency. To corroborate these claims, we show that across a broad set of long-range benchmarks, GHR consistently outperforms existing graph models while using as little as 1% of the parameters of current state-of-the-art models. These results suggest a complementary direction to the current trend of scaling architectures to obtain graph foundation models, indicating that increased model capacity alone may not be sufficient for generalization.