KumoRFM-2: Scaling Foundation Models for Relational Learning

📄 arXiv: 2604.12596v1 📥 PDF

作者: Valter Hudovernik, Federico López, Vid Kocijan, Akihiro Nitta, Jan Eric Lenssen, Jure Leskovec, Matthias Fey

分类: cs.LG, cs.AI

发布日期: 2026-04-14


💡 一句话要点

KumoRFM-2:扩展关系学习的基础模型,提升小样本学习性能并支持十亿级数据。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 关系学习 基础模型 预训练 上下文学习 小样本学习 关系数据 Transformer 图神经网络

📋 核心要点

  1. 现有表格模型需要手动展平关系数据并生成目标变量,忽略了关系结构和时间一致性,限制了其在复杂关系数据上的应用。
  2. KumoRFM-2通过原生处理关系数据,在表级别和数据库级别进行预训练,并尽早注入任务信息,从而提高模型对噪声的鲁棒性和任务相关性。
  3. 实验表明,KumoRFM-2在多个基准测试中优于监督和基础模型,尤其在小样本学习和噪声数据环境下表现出色,并能扩展到十亿级数据集。

📝 摘要(中文)

本文介绍了KumoRFM-2,这是关系数据预训练基础模型的下一个迭代版本。KumoRFM-2支持上下文学习和微调,适用于广泛的预测任务。与表格基础模型不同,KumoRFM-2原生处理关系数据,同时处理一个或多个连接的表,无需手动展平表或生成目标变量,同时保持时间一致性。KumoRFM-2利用大量的合成和真实世界数据,在四个轴上进行预训练:表级别的行和列维度,以及数据库级别的外键和跨样本维度。与前代产品相比,KumoRFM-2尽早注入任务信息,从而能够更准确地选择与任务相关的列,并提高对噪声数据的鲁棒性。通过在41个具有挑战性的基准上进行的大量实验以及围绕表达性和敏感性的分析,我们证明KumoRFM-2优于监督和基础方法高达8%,同时在冷启动和噪声数据的极端设置下保持强大的性能。据我们所知,这是首次有少量样本基础模型在常见基准任务上超越监督方法,并且在微调后性能进一步提高。最后,虽然KumoRFM-1仅限于小规模内存数据集,但KumoRFM-2可扩展到十亿级关系数据集。

🔬 方法详解

问题定义:现有表格数据处理方法在处理关系型数据时,通常需要进行手动的数据展平和特征工程,这不仅耗时耗力,而且容易丢失关系型数据中固有的结构信息和时间一致性。此外,现有方法在小样本学习和噪声数据环境下表现不佳,限制了其在实际应用中的价值。

核心思路:KumoRFM-2的核心思路是构建一个能够原生处理关系型数据的预训练基础模型。通过在大量的合成和真实世界关系型数据上进行预训练,模型能够学习到关系型数据的内在结构和语义信息。同时,通过尽早注入任务信息,模型能够更好地选择与任务相关的特征,提高对噪声数据的鲁棒性。

技术框架:KumoRFM-2的技术框架主要包括以下几个部分:1) 数据预处理模块:负责将关系型数据转换为模型可以处理的格式。2) 预训练模块:在大量的关系型数据上进行预训练,学习关系型数据的内在结构和语义信息。预训练过程在四个维度上进行:表级别的行和列维度,以及数据库级别的外键和跨样本维度。3) 任务注入模块:尽早将任务信息注入到模型中,以便模型能够更好地选择与任务相关的特征。4) 微调模块:在特定任务的数据集上进行微调,以提高模型在该任务上的性能。

关键创新:KumoRFM-2的关键创新在于其原生处理关系型数据的能力。与传统的表格模型需要手动展平数据不同,KumoRFM-2可以直接处理多个连接的表,并保持时间一致性。此外,KumoRFM-2通过尽早注入任务信息,提高了模型对噪声数据的鲁棒性和任务相关性。

关键设计:KumoRFM-2的关键设计包括:1) 使用Transformer架构作为基础模型。2) 设计了专门的预训练任务,以学习关系型数据的内在结构和语义信息。3) 采用了一种新的任务注入方法,将任务信息尽早注入到模型中。4) 使用了大规模的合成和真实世界关系型数据集进行预训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

KumoRFM-2在41个基准测试中表现出色,超越了监督学习方法高达8%。尤其值得注意的是,在小样本学习场景下,KumoRFM-2首次超越了监督学习方法,并且在微调后性能进一步提升。此外,KumoRFM-2能够扩展到十亿级别的数据集,使其能够应用于更大规模的实际问题。

🎯 应用场景

KumoRFM-2在金融风控、供应链管理、医疗健康等领域具有广泛的应用前景。它可以用于预测客户违约风险、优化供应链流程、辅助疾病诊断等。通过利用关系型数据中的丰富信息,KumoRFM-2可以提高预测精度和决策效率,为企业和社会创造更大的价值。

📄 摘要(原文)

We introduce KumoRFM-2, the next iteration of a pre-trained foundation model for relational data. KumoRFM-2 supports in-context learning as well as fine-tuning and is applicable to a wide range of predictive tasks. In contrast to tabular foundation models, KumoRFM-2 natively operates on relational data, processing one or more connected tables simultaneously without manual table flattening or target variable generation, all while preserving temporal consistency. KumoRFM-2 leverages a large corpus of synthetic and real-world data to pre-train across four axes: the row and column dimensions at the individual table level, and the foreign key and cross-sample dimensions at the database level. In contrast to its predecessor, KumoRFM-2 injects task information as early as possible, enabling sharper selection of task-relevant columns and improved robustness to noisy data. Through extensive experiments on 41 challenging benchmarks and analysis around expressivity and sensitivity, we demonstrate that KumoRFM-2 outperforms supervised and foundational approaches by up to 8%, while maintaining strong performance under extreme settings of cold start and noisy data. To our knowledge, this is the first time a few-shot foundation model has been shown to surpass supervised approaches on common benchmark tasks, with performance further improving upon fine-tuning. Finally, while KumoRFM-1 was limited to small-scale in-memory datasets, KumoRFM-2 scales to billion-scale relational datasets.