Turning Tabular Foundation Models into Graph Foundation Models
作者: Dmitry Eremeev, Gleb Bazhenov, Oleg Platonov, Artem Babenko, Liudmila Prokhorenkova
分类: cs.LG
发布日期: 2025-08-28 (更新: 2025-09-23)
💡 一句话要点
提出G2T-FM框架,利用表格基础模型解决图机器学习中异构节点特征问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图基础模型 表格基础模型 图机器学习 异构节点特征 邻域特征聚合
📋 核心要点
- 图基础模型面临异构节点特征的挑战,现有方法主要集中于文本属性图,对其他类型特征处理不足。
- G2T-FM框架通过邻域特征聚合和结构嵌入增强节点特征,并利用表格基础模型进行图学习。
- 实验表明,G2T-FM在上下文学习和微调后均优于现有图基础模型和精心调优的图神经网络。
📝 摘要(中文)
尽管基础模型已经彻底改变了自然语言处理和计算机视觉等领域,但它们在图机器学习中的潜力仍有待探索。设计图基础模型(GFM)的关键挑战之一是处理不同图数据集中可能存在的各种节点特征。虽然许多关于GFM的工作主要集中在文本属性图上,但在GFM中处理其他类型任意特征的问题尚未完全解决。然而,这个问题并非图领域独有,在表格数据机器学习领域也存在。受TabPFNv2或LimiX等表格基础模型(TFM)近期成功的启发,我们提出了G2T-FM,这是一个将表格基础模型转化为图基础模型的简单框架。具体来说,G2T-FM通过邻域特征聚合增强原始节点特征,添加结构嵌入,然后将TFM应用于构建的节点表示。即使在完全上下文学习的情况下,我们的模型也取得了强大的结果,显著优于公开可用的GFM,并且性能与从头开始训练的经过良好调优的GNN相比具有竞争力,并且通常优于后者。此外,经过微调后,G2T-FM超越了经过良好调优的GNN基线。特别是,当与LimiX结合使用时,G2T-FM通常以显著的优势优于最佳GNN。总而言之,我们的论文揭示了利用表格基础模型进行图机器学习任务的潜力,这是一个以前被忽视的方向。
🔬 方法详解
问题定义:图机器学习中,如何有效处理具有异构特征的节点是一个关键问题。现有图基础模型(GFM)主要关注文本属性图,对于数值型、类别型等其他类型特征的处理能力有限,这限制了GFM在更广泛图数据集上的应用。
核心思路:论文的核心思路是将图数据转换为表格数据,然后利用强大的表格基础模型(TFM)进行学习。通过将节点特征、邻域信息和结构信息编码成表格形式,可以充分利用TFM在处理异构数据方面的优势。这样设计的目的是为了避免从头开始设计复杂的图神经网络结构,而是利用已有的、经过预训练的TFM来快速构建高性能的GFM。
技术框架:G2T-FM框架包含以下几个主要步骤:1) 节点特征增强:首先,对原始节点特征进行聚合,例如计算邻居节点的平均特征或最大特征。2) 结构嵌入:然后,添加结构嵌入,例如节点度数或PageRank值,以捕捉图的结构信息。3) 表格化表示:将增强后的节点特征和结构嵌入组合成表格形式,每一行代表一个节点。4) 表格基础模型:最后,将表格数据输入到预训练的表格基础模型(如TabPFNv2或LimiX)中进行学习。
关键创新:G2T-FM的关键创新在于将表格基础模型引入到图机器学习领域,并提出了一种简单有效的图到表格的转换方法。与传统的图神经网络相比,G2T-FM无需手动设计复杂的图卷积操作,而是直接利用预训练的TFM来学习图的表示。这种方法可以快速构建高性能的GFM,并充分利用TFM在处理异构数据方面的优势。
关键设计:G2T-FM的关键设计包括:1) 邻域特征聚合策略:可以选择不同的聚合函数,如平均、最大、最小等,以捕捉不同类型的邻域信息。2) 结构嵌入的选择:可以选择不同的结构嵌入,如节点度数、PageRank值、聚类系数等,以捕捉不同类型的图结构信息。3) 表格基础模型的选择:可以选择不同的表格基础模型,如TabPFNv2、LimiX等,以适应不同的任务和数据集。论文中并没有明确指定具体的参数设置,而是强调了框架的通用性和灵活性。
🖼️ 关键图片
📊 实验亮点
G2T-FM在多个图数据集上取得了显著的实验结果。在上下文学习设置下,G2T-FM显著优于公开可用的图基础模型。经过微调后,G2T-FM超越了精心调优的图神经网络基线。特别是,当与LimiX结合使用时,G2T-FM通常以显著的优势优于最佳GNN。这些结果表明,G2T-FM是一种有竞争力的图机器学习方法,并具有很大的潜力。
🎯 应用场景
G2T-FM框架可应用于各种图机器学习任务,如节点分类、链接预测、图分类等。其潜在应用领域包括社交网络分析、生物信息学、化学信息学、推荐系统等。该研究的实际价值在于提供了一种简单有效的构建图基础模型的方法,降低了图机器学习的门槛,并促进了表格基础模型在图领域的应用。未来,G2T-FM可以进一步扩展到处理更复杂的图结构和异构图数据。
📄 摘要(原文)
While foundation models have revolutionized such fields as natural language processing and computer vision, their potential in graph machine learning remains largely unexplored. One of the key challenges in designing graph foundation models (GFMs) is handling diverse node features that can vary across different graph datasets. While many works on GFMs have focused exclusively on text-attributed graphs, the problem of handling arbitrary features of other types in GFMs has not been fully addressed. However, this problem is not unique to the graph domain, as it also arises in the field of machine learning for tabular data. In this work, motivated by the recent success of tabular foundation models (TFMs) like TabPFNv2 or LimiX, we propose G2T-FM, a simple framework for turning tabular foundation models into graph foundation models. Specifically, G2T-FM augments the original node features with neighborhood feature aggregation, adds structural embeddings, and then applies a TFM to the constructed node representations. Even in a fully in-context regime, our model achieves strong results, significantly outperforming publicly available GFMs and performing competitively with, and often better than, well-tuned GNNs trained from scratch. Moreover, after finetuning, G2T-FM surpasses well-tuned GNN baselines. In particular, when combined with LimiX, G2T-FM often outperforms the best GNN by a significant margin. In summary, our paper reveals the potential of a previously overlooked direction of utilizing tabular foundation models for graph machine learning tasks.