Towards Foundation Models for Relational Databases with Language Models and Graph Neural Networks

📄 arXiv: 2605.16085v1 📥 PDF

作者: Jingcheng Wu, Ratan Bahadur Thapa, Mojtaba Nayyeri, Lucas Etteldorf, Max Finkenbeiner, Fabian Leeske, Steffen Staab

分类: cs.DB, cs.AI

发布日期: 2026-05-15

备注: 15 pages, 7 figures, 4 tables. Preprint of a paper accepted at the 1st Workshop on Extraction from Triplet Text-Table-Knowledge Graph and associated Challenge (TRIPLET), co-located with ESWC 2026


💡 一句话要点

提出结合语言模型和图神经网络的关系数据库Foundation模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 关系数据库 图神经网络 语言模型 BART GraphSAGE 关系深度学习 混合架构

📋 核心要点

  1. 传统方法将关系数据库扁平化,丢失关系信息,限制了深度学习在关系数据上的应用。
  2. 提出一种混合架构,结合微调的BART编码器和GraphSAGE-based GNN,兼顾行内语义和关系上下文。
  3. 实验表明,该方法在RelBench上表现出竞争力,缩小了与RDL的差距,为关系数据库基础模型提供新思路。

📝 摘要(中文)

关系数据库存储了世界上大部分的结构化信息,对于驱动复杂的预测应用至关重要。然而,关系数据上的深度学习进展仍然有限,因为传统方法通过手动特征工程将数据库扁平化为单个表,从而丢弃了关系上下文。关系深度学习(RDL)通过将数据库建模为关系实体图(REG)以供图神经网络(GNN)使用来解决这个问题,但仍然是任务和数据库特定的。为了结合这两种范式的优势,我们提出了一种混合架构,该架构结合了微调的BART编码器来捕获行内语义,以及基于GraphSAGE的GNN来注入关系上下文。在RelBench上的实验表明,GNN显着丰富了BART的行嵌入,在rel-f1数据集的driver-dnf任务上实现了67.40的ROC-AUC。该性能与LightGBM(68.86)等监督基线具有竞争力,并将与RDL(72.62)的差距缩小到5.22个点,尽管与KumoRFM(82.63)等最先进的基础模型仍然存在相当大的差距。这些结果表明,轻量级混合LM-GNN架构为关系数据库的基础模型提供了一条有希望且资源高效的途径。

🔬 方法详解

问题定义:现有方法在处理关系数据库时,通常采用手动特征工程将数据库扁平化为单个表格,这种做法忽略了关系数据库中固有的结构化信息和实体之间的关联关系,导致深度学习模型无法充分利用这些信息,从而限制了模型的性能。关系深度学习(RDL)虽然能够建模关系实体图,但通常是任务和数据库特定的,泛化能力有限。

核心思路:本文的核心思路是结合语言模型(LM)和图神经网络(GNN)的优势。语言模型擅长捕捉文本的语义信息,而图神经网络擅长处理图结构数据,能够有效建模实体之间的关系。通过将两者结合,可以同时利用行内语义信息和关系上下文信息,从而提升模型在关系数据库上的性能。

技术框架:该混合架构主要包含两个模块:1) 基于微调BART的编码器:用于捕获关系数据库中每一行的语义信息,将每一行编码成一个向量表示。2) 基于GraphSAGE的GNN:用于建模关系实体图,将数据库中的实体和关系表示成图结构,并通过GNN学习实体之间的关系表示。这两个模块的输出进行融合,用于下游任务的预测。

关键创新:该方法的主要创新在于提出了一个轻量级的混合LM-GNN架构,将预训练语言模型和图神经网络结合起来,用于关系数据库的建模。这种混合架构能够同时利用行内语义信息和关系上下文信息,从而提升模型在关系数据库上的性能。此外,该方法具有资源效率,可以在有限的计算资源下取得较好的效果。

关键设计:BART编码器使用预训练的BART模型进行微调,以适应关系数据库的特定任务。GraphSAGE-based GNN使用GraphSAGE算法进行图嵌入学习,并通过聚合邻居节点的信息来更新节点表示。损失函数根据具体的下游任务进行设计,例如,对于链接预测任务,可以使用二元交叉熵损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在RelBench数据集上,该方法在driver-dnf任务上取得了67.40的ROC-AUC,与LightGBM(68.86)等监督基线具有竞争力,并将与RDL(72.62)的差距缩小到5.22个点。虽然与KumoRFM(82.63)等SOTA模型仍有差距,但证明了轻量级混合LM-GNN架构在关系数据库建模上的潜力。

🎯 应用场景

该研究成果可应用于多种关系数据库相关的任务,例如链接预测、实体分类、关系抽取等。在金融风控、医疗诊断、推荐系统等领域具有潜在应用价值。通过构建关系数据库的基础模型,可以降低开发成本,提高模型性能,加速相关应用的落地。

📄 摘要(原文)

Relational databases store much of the world's structured information, and they are essential for driving complex predictive applications. However, deep learning progress on relational data remains limited, as conventional approaches flatten databases into single tables via manual feature engineering, discarding relational context. Relational deep learning (RDL) addresses this by modeling databases as relational entity graphs (REGs) for graph neural networks (GNNs), but remains task- and database-specific. To combine the strengths of both paradigms, we propose a hybrid architecture combining a fine-tuned BART encoder to capture intra-row semantics with a GraphSAGE-based GNN over REGs to inject relational context. Experiments on RelBench show that the GNN substantially enriches BART's row embeddings, achieving a ROC-AUC of 67.40 on the driver-dnf task from the rel-f1 dataset. This performance is competitive with supervised baselines such as LightGBM (68.86) and narrows the gap to RDL (72.62) to within 5.22 points, though a substantial gap remains to state-of-the-art foundation models such as KumoRFM (82.63). These results suggest that lightweight hybrid LM-GNN architectures offer a promising and resource-efficient path towards foundation models for relational databases.