RDBLearn: Simple In-Context Prediction Over Relational Databases

📄 arXiv: 2602.18495v1 📥 PDF

作者: Yanlin Zhang, Linjie Xu, Quan Gan, David Wipf, Minjie Wang

分类: cs.DB, cs.AI, cs.LG

发布日期: 2026-02-14

🔗 代码/项目: GITHUB


💡 一句话要点

RDBLearn:关系数据库上的简单上下文学习预测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 关系数据库 上下文学习 表格数据 特征工程 关系聚合

📋 核心要点

  1. 现有表格上下文学习方法难以直接应用于关系数据库,因为预测信号分散在多个关联表中。
  2. RDBLearn通过关系聚合自动提取特征,将关系数据转换为表格数据,然后利用现成的表格基础模型进行预测。
  3. 实验表明,RDBLearn在多个关系数据集上表现优异,甚至超越了在每个数据集上训练的监督模型。

📝 摘要(中文)

表格上下文学习(ICL)的最新进展表明,单个预训练模型可以通过少量带标签的示例适应新的预测任务,避免了每个任务的训练和繁重的调优。然而,许多现实世界的任务存在于关系数据库中,其中预测信号分布在多个链接的表中,而不是单个扁平表中。我们表明,表格ICL可以通过一个简单的配方扩展到关系预测:使用关系聚合自动为每个目标行提取特征,物化生成的增强表,并在其上运行现成的表格基础模型。我们将这种方法打包在 extit{RDBLearn}中(https://github.com/HKUSHXLab/rdblearn),这是一个易于使用的工具包,具有scikit-learn风格的估计器接口,可以轻松地交换不同的表格ICL后端;还提供了一个补充的特定于代理的接口。在广泛的RelBench和4DBInfer数据集上,RDBLearn是我们评估的性能最佳的基础模型方法,有时甚至优于在每个数据集上训练或微调的强大的监督基线。

🔬 方法详解

问题定义:论文旨在解决关系数据库上的预测问题。现有方法,特别是表格上下文学习方法,难以直接应用于关系数据库,因为关系数据分散在多个表中,需要复杂的连接和特征工程才能提取有用的预测信号。现有的针对单表的ICL方法无法有效处理这种关系型数据。

核心思路:论文的核心思路是将关系数据库中的数据转换为适合表格上下文学习的形式。通过自动化的关系聚合操作,将多个相关表的信息汇总到目标表中,从而将关系预测问题转化为表格预测问题。这样就可以直接利用现有的表格ICL模型,而无需针对关系数据进行专门设计。

技术框架:RDBLearn的整体框架包括以下几个主要步骤:1) 关系聚合:根据预定义的聚合函数(如COUNT, SUM, AVG等),将相关表中的信息聚合到目标表中。2) 特征物化:将聚合后的特征添加到目标表中,形成一个增强的表格。3) 上下文学习:使用表格上下文学习模型(如基于Transformer的模型)在增强的表格上进行预测。RDBLearn提供了一个scikit-learn风格的接口,方便用户选择和配置不同的表格ICL后端。

关键创新:该方法最重要的创新在于提供了一种简单而有效的方式,将表格上下文学习扩展到关系数据库。通过自动化的关系聚合和特征物化,避免了手动特征工程的复杂性,并使得现有的表格ICL模型可以直接应用于关系预测任务。这种方法的通用性和易用性是其关键优势。

关键设计:RDBLearn的关键设计包括:1) 灵活的聚合函数选择:用户可以根据具体任务选择合适的聚合函数。2) 可插拔的ICL后端:RDBLearn支持多种表格ICL模型,用户可以根据需求选择不同的模型。3) 易于使用的接口:RDBLearn提供了一个scikit-learn风格的接口,方便用户进行实验和部署。

📊 实验亮点

RDBLearn在RelBench和4DBInfer等多个关系数据集上取得了优异的性能,显著优于其他基础模型方法。在某些情况下,RDBLearn甚至超越了在每个数据集上训练或微调的强监督基线模型。这些实验结果表明,RDBLearn是一种有效且通用的关系预测方法。

🎯 应用场景

RDBLearn可应用于各种需要从关系数据库中进行预测的场景,例如客户关系管理、供应链管理、金融风险评估等。它能够帮助用户快速构建预测模型,而无需进行繁琐的特征工程和模型训练。该工具包的易用性也降低了使用门槛,使得非专业人士也能利用关系数据进行预测分析。

📄 摘要(原文)

Recent advances in tabular in-context learning (ICL) show that a single pretrained model can adapt to new prediction tasks from a small set of labeled examples, avoiding per-task training and heavy tuning. However, many real-world tasks live in relational databases, where predictive signal is spread across multiple linked tables rather than a single flat table. We show that tabular ICL can be extended to relational prediction with a simple recipe: automatically featurize each target row using relational aggregations over its linked records, materialize the resulting augmented table, and run an off-the-shelf tabular foundation model on it. We package this approach in \textit{RDBLearn} (https://github.com/HKUSHXLab/rdblearn), an easy-to-use toolkit with a scikit-learn-style estimator interface that makes it straightforward to swap different tabular ICL backends; a complementary agent-specific interface is provided as well. Across a broad collection of RelBench and 4DBInfer datasets, RDBLearn is the best-performing foundation model approach we evaluate, at times even outperforming strong supervised baselines trained or fine-tuned on each dataset.