Task Scarcity and Label Leakage in Relational Transfer Learning
作者: Francisco Galuppo Azevedo, Clarissa Lima Loures, Denis Oliveira Correa
分类: cs.LG
发布日期: 2026-03-31
备注: Accepted at the 3rd DATA-FM Workshop at ICLR 2026, Rio de Janeiro, Brazil. OpenReview: https://openreview.net/forum?id=nI2nsMMHXp
💡 一句话要点
针对关系迁移学习中的任务稀缺和标签泄露问题,提出梯度投影方法抑制标签预测信息,提升模型泛化能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 关系迁移学习 标签泄露 梯度投影 任务稀缺 表征学习
📋 核心要点
- 关系迁移学习面临任务稀缺性问题,导致模型学习到任务特定的捷径(标签泄露),降低了跨任务的泛化能力。
- 论文提出一种梯度投影方法,通过从表征更新中移除标签预测方向,从而抑制标签泄露,提升模型的泛化能力。
- 实验结果表明,该方法在 RelBench 数据集上显著提升了数据集内迁移性能,平均 AUROC 提升了 0.145。
📝 摘要(中文)
训练关系型基础模型需要学习跨任务迁移的表征,但可用的监督信息通常仅限于每个数据库中少量预测目标。这种任务稀缺性导致学习到的表征编码了任务特定的捷径,即使在同一模式内也会降低迁移性能,我们称之为标签泄露。我们使用 K-Space 架构研究了这个问题,该架构结合了冻结的预训练表格编码器和一个轻量级的消息传递核心。为了抑制泄露,我们引入了一种梯度投影方法,从表征更新中移除标签预测方向。在 RelBench 上,这平均提高了数据集内迁移性能 0.145 AUROC,通常恢复到接近单任务的性能。我们的结果表明,限制关系型基础模型的不仅是有限的数据,还有有限的任务多样性。
🔬 方法详解
问题定义:关系迁移学习旨在利用多个相关任务的数据来提升单个任务的性能。然而,在实际应用中,每个数据库可用的监督信息通常有限,导致模型容易过拟合到特定任务的标签,从而产生标签泄露问题。现有方法难以有效抑制这种标签泄露,导致模型在不同任务之间的泛化能力较差。
核心思路:论文的核心思路是通过梯度投影来抑制标签泄露。具体来说,作者认为标签泄露是由于模型学习到的表征包含了过多的标签预测信息。因此,在模型训练过程中,通过将梯度投影到与标签预测方向正交的子空间,可以有效地移除表征中的标签预测成分,从而抑制标签泄露。
技术框架:论文使用 K-Space 架构作为基础模型,该架构包含两个主要模块:冻结的预训练表格编码器和轻量级的消息传递核心。表格编码器负责将表格数据转换为低维表征,消息传递核心负责在关系图上进行信息传递和聚合。在训练过程中,作者在计算梯度后,使用梯度投影方法来更新模型参数。
关键创新:论文的关键创新在于提出了梯度投影方法来抑制关系迁移学习中的标签泄露问题。与现有方法相比,该方法能够更有效地移除表征中的标签预测成分,从而提升模型的泛化能力。此外,该方法实现简单,易于集成到现有的关系学习框架中。
关键设计:梯度投影的具体实现方式如下:首先,计算表征对标签的梯度;然后,将该梯度投影到与标签梯度正交的子空间。具体公式为:g' = g - (g^T v)v,其中 g 是原始梯度,v 是标签梯度,g' 是投影后的梯度。作者使用 AUROC 作为评估指标,并在 RelBench 数据集上进行了实验。
📊 实验亮点
实验结果表明,提出的梯度投影方法在 RelBench 数据集上显著提升了数据集内迁移性能,平均 AUROC 提升了 0.145。在某些任务上,该方法甚至能够恢复到接近单任务的性能。这些结果表明,限制关系型基础模型的不仅是有限的数据,还有有限的任务多样性,而该方法能够有效地解决任务稀缺性带来的标签泄露问题。
🎯 应用场景
该研究成果可应用于多种关系数据分析场景,例如医疗健康、金融风控、社交网络分析等。通过抑制标签泄露,可以提升模型在不同数据集和任务上的泛化能力,从而更好地利用有限的监督信息进行预测和决策。未来,该方法可以进一步扩展到其他类型的关系学习任务中,例如图神经网络和知识图谱推理。
📄 摘要(原文)
Training relational foundation models requires learning representations that transfer across tasks, yet available supervision is typically limited to a small number of prediction targets per database. This task scarcity causes learned representations to encode task-specific shortcuts that degrade transfer even within the same schema, a problem we call label leakage. We study this using K-Space, a modular architecture combining frozen pretrained tabular encoders with a lightweight message-passing core. To suppress leakage, we introduce a gradient projection method that removes label-predictive directions from representation updates. On RelBench, this improves within-dataset transfer by +0.145 AUROC on average, often recovering near single-task performance. Our results suggest that limited task diversity, not just limited data, constrains relational foundation models.