Relational Transformer: Toward Zero-Shot Foundation Models for Relational Data
作者: Rishabh Ranjan, Valter Hudovernik, Mark Znidar, Charilaos Kanatsoulis, Roshan Upendra, Mahmoud Mohammadi, Joe Meyer, Tom Palczewski, Carlos Guestrin, Jure Leskovec
分类: cs.LG, cs.AI, cs.DB
发布日期: 2025-10-07 (更新: 2025-10-22)
备注: preprint; under review
💡 一句话要点
提出Relational Transformer,实现关系型数据零样本迁移学习。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 关系型数据 Transformer 零样本学习 预训练模型 关系注意力
📋 核心要点
- 关系型数据种类繁多,异构模式、图结构和函数依赖关系各异,导致现有架构难以跨数据集和任务迁移。
- Relational Transformer (RT) 通过标记单元格、掩码token预测预训练和关系注意力机制,实现关系型数据的零样本迁移。
- 实验表明,RT在零样本二元分类任务中表现出色,AUROC达到完全监督的93%,微调后性能达到SOTA。
📝 摘要(中文)
本文提出Relational Transformer (RT) 架构,旨在解决关系型数据领域缺乏跨数据集和任务迁移能力的问题。RT通过在多样化的关系数据库上进行预训练,无需任务或数据集特定的微调,也无需检索上下文示例,即可直接应用于未见过的数据集和任务。RT (i) 使用表/列元数据标记单元格,(ii) 通过掩码token预测进行预训练,以及 (iii) 利用一种新颖的关系注意力机制处理列、行和主外键链接。在RelBench数据集上预训练后,RT在二元分类任务中获得了强大的零样本性能,仅使用一个22M参数模型的单次前向传播,平均AUROC达到完全监督的93%,而一个27B LLM的AUROC为84%。微调后,RT实现了最先进的结果,并具有很高的样本效率。实验表明,RT的零样本迁移利用了任务-表上下文、关系注意力模式和模式语义。总而言之,RT为关系型数据的基础模型提供了一条可行的途径。
🔬 方法详解
问题定义:现有方法在处理关系型数据时,缺乏跨数据集和任务的泛化能力。关系型数据的多样性(异构模式、图结构、函数依赖等)使得针对特定数据集或任务训练的模型难以直接应用于其他场景。现有方法通常需要针对新任务进行微调,或者依赖于上下文学习,效率较低。
核心思路:本文的核心思路是设计一种能够理解关系型数据内在结构和语义的Transformer架构,使其能够通过预训练学习到通用的关系表示,从而实现零样本迁移。RT通过显式地建模列、行和主外键之间的关系,以及利用表/列元数据,使模型能够更好地理解关系型数据的结构信息。
技术框架:Relational Transformer (RT) 的整体架构包括以下几个主要模块:1) Tokenization Layer: 将关系表中的每个单元格进行token化,并结合表/列元数据信息。2) Relational Attention Layer: 在Transformer的注意力机制中引入关系信息,分别对列、行和主外键链接进行建模。3) Transformer Encoder: 使用标准的Transformer编码器对token序列进行编码。4) Prediction Head: 根据具体任务,使用不同的预测头进行预测。预训练阶段采用掩码token预测任务。
关键创新:RT最重要的技术创新点在于其关系注意力机制,它能够显式地建模关系型数据中的列、行和主外键之间的关系。与传统的Transformer只关注token之间的关系不同,RT能够更好地理解关系型数据的结构信息,从而提高模型的泛化能力。此外,RT还利用了表/列元数据,进一步增强了模型对关系型数据的理解。
关键设计:RT的关键设计包括:1) 关系注意力机制:分别对列、行和主外键链接进行建模,使用不同的注意力权重。2) 表/列元数据:将表名和列名作为token的一部分输入模型。3) 掩码token预测任务:在预训练阶段,随机掩盖一部分token,并让模型预测被掩盖的token。4) 模型参数量:论文中使用的模型参数量为22M。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Relational Transformer在RelBench数据集上取得了显著的零样本性能。在二元分类任务中,RT仅使用一个22M参数模型的单次前向传播,平均AUROC达到完全监督的93%,而一个27B LLM的AUROC为84%。微调后,RT实现了最先进的结果,并具有很高的样本效率,表明其具有强大的泛化能力。
🎯 应用场景
Relational Transformer在企业数据分析、金融风控、客户关系管理等领域具有广泛的应用前景。它可以用于预测客户流失、销售预测、欺诈检测等任务,帮助企业更好地理解和利用其关系型数据。此外,RT还可以作为关系型数据基础模型,为其他下游任务提供预训练的表示。
📄 摘要(原文)
Pretrained transformers readily adapt to new sequence modeling tasks via zero-shot prompting, but relational domains still lack architectures that transfer across datasets and tasks. The core challenge is the diversity of relational data, with varying heterogeneous schemas, graph structures and functional dependencies. In this paper, we present the Relational Transformer (RT) architecture, which can be pretrained on diverse relational databases and directly applied to unseen datasets and tasks without task- or dataset-specific fine-tuning, or retrieval of in-context examples. RT (i) tokenizes cells with table/column metadata, (ii) is pretrained via masked token prediction, and (iii) utilizes a novel Relational Attention mechanism over columns, rows, and primary-foreign key links. Pretrained on RelBench datasets spanning tasks such as churn and sales forecasting, RT attains strong zero-shot performance, averaging 93% of fully supervised AUROC on binary classification tasks with a single forward pass of a 22M parameter model, as opposed to 84% for a 27B LLM. Fine-tuning yields state-of-the-art results with high sample efficiency. Our experiments show that RT's zero-shot transfer harnesses task-table context, relational attention patterns and schema semantics. Overall, RT provides a practical path toward foundation models for relational data.