When Do Graph Foundation Models Transfer? A Data-Centric Theory
作者: Jiajun Zhu, Ying Chen, Peihao Wang, Yixuan He, Pan Li, Aditya Akella, Zhangyang Wang
分类: cs.LG
发布日期: 2026-05-28
备注: 21 pages, including appendix. Accepted at ICML 2026
💡 一句话要点
提出数据驱动的图神经网络迁移学习理论,分析领域差异对模型输出的影响
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图神经网络 迁移学习 领域自适应 Graphon理论 位置编码
📋 核心要点
- 现有图神经网络基础模型迁移学习方法缺乏对领域差异的理论分析,导致迁移性能不稳定。
- 论文提出基于Graphon的连续极限理论,将跨域输出偏移分解为有限样本近似项和结构不匹配的领域差异。
- 实验验证了该理论,并表明该分解可以指导图神经网络基础模型迁移学习中的数据管理。
📝 摘要(中文)
图神经网络基础模型(GFMs)旨在跨多个图领域复用单个骨干网络,但其迁移性能通常不均衡,并可能出现负迁移。现有工作主要通过架构或自适应选择来改进迁移,本文则从数据角度出发,探究两个图领域的哪些属性决定了固定表示模型的输出变化程度。利用基于graphon的稠密图连续极限,我们证明对于基于集合和消息传递的tokenization,任何Lipschitz骨干网络都允许将跨域输出偏移显式分解为(i)特定于图的有限样本近似项和(ii)一个内在的、重标记不变的领域差异,用于捕获结构不匹配。位置编码(PE)稳定性是关键因素:我们建立了谱PE的稳定性保证,并强调了基于特征向量与基于子空间的PE的对比行为。在合成图和真实图上的实验验证了该理论,并将分解转化为GFM迁移中数据管理方面的指导。
🔬 方法详解
问题定义:图神经网络基础模型(GFMs)在不同图领域进行迁移时,性能差异显著,甚至出现负迁移现象。现有方法主要集中在模型架构设计和自适应策略上,缺乏对数据本身性质的深入理解,无法解释哪些图领域之间的差异会导致模型输出发生显著变化。因此,需要一种理论框架来量化领域差异对模型输出的影响,从而指导GFM的迁移学习。
核心思路:论文的核心思路是将图视为连续的Graphon的离散近似,利用Graphon理论来分析图的结构差异。通过这种方式,可以将跨域输出的偏移分解为两部分:一部分是由于有限样本近似造成的误差,另一部分是内在的、与节点标签无关的领域差异,它反映了图结构本身的不匹配程度。这种分解为理解和控制GFM的迁移行为提供了理论基础。
技术框架:论文的技术框架主要包括以下几个部分:1) 使用Graphon来表示图的连续极限;2) 定义了基于集合和消息传递的两种tokenization方法;3) 推导了跨域输出偏移的分解公式,将其分解为有限样本近似项和领域差异项;4) 分析了位置编码(PE)的稳定性,特别是谱PE的稳定性;5) 通过实验验证了理论的有效性,并展示了如何利用该理论指导数据管理。
关键创新:论文最重要的技术创新点在于提出了一个数据驱动的图神经网络迁移学习理论,该理论能够显式地将跨域输出偏移分解为有限样本近似项和领域差异项。这种分解不仅提供了对GFM迁移行为的深入理解,而且为数据管理和领域选择提供了指导。此外,论文还对位置编码的稳定性进行了分析,为选择合适的PE方法提供了理论依据。
关键设计:论文的关键设计包括:1) 使用Graphon作为图的连续表示,这使得可以使用连续数学工具来分析图的结构差异;2) 定义了重标记不变的领域差异度量,该度量能够捕获图结构本身的不匹配程度;3) 分析了谱PE的稳定性,并比较了基于特征向量和基于子空间的PE的性能差异;4) 通过合成图和真实图上的实验验证了理论的有效性,并展示了如何利用该理论指导数据管理。
🖼️ 关键图片
📊 实验亮点
论文通过在合成图和真实图上的实验验证了所提出的理论。实验结果表明,跨域输出偏移的分解公式能够准确地预测GFM的迁移性能。此外,实验还展示了如何利用该理论指导数据管理,例如,通过选择领域差异较小的图进行迁移学习,可以显著提高GFM的性能。具体性能提升幅度未知。
🎯 应用场景
该研究成果可应用于各种图神经网络的迁移学习场景,例如,在药物发现中,可以将已有的蛋白质相互作用网络知识迁移到新的疾病相关的网络中。此外,该理论可以指导数据增强和领域选择,从而提高GFM在不同领域的泛化能力。未来,该理论可以扩展到更复杂的图结构和更广泛的图学习任务中。
📄 摘要(原文)
Graph foundation models (GFMs) aim to reuse a single backbone across diverse graph domains, yet their transfer is often uneven and can exhibit negative transfer. While most prior work improves transfer through architectural or adaptation choices, we ask a data-centric question: which properties of two graph domains determine how much a fixed representation model changes its outputs? Using a graphon-based continuous limit for dense graphs, we show that for both set-based and message-passing tokenizations, any Lipschitz backbone admits an explicit decomposition of cross-domain output shift into (i) graph-specific finite-sample approximation terms and (ii) an intrinsic, relabeling-invariant domain discrepancy capturing structural mismatch. A key ingredient is positional-encoding (PE) stability: we establish stability guarantees for spectral PEs and highlight contrasting behaviors of eigenvector- versus subspace-based PEs. Experiments on synthetic and real graphs validate the theory and translate the decomposition into guidance for data curation in GFM transfer.