LUCoS: Latent Unsupervised Context Selection for Tabular Foundation Models

📄 arXiv: 2605.27254v1 📥 PDF

作者: Oroel Ipas, Guillermo Gomez-Trenado, Rocío Romero-Zaliz, Isaac Triguero

分类: cs.LG, cs.AI

发布日期: 2026-05-26

备注: Comments: 18 pages, 4 figures, supplementary appendices included


💡 一句话要点

提出LUCoS,利用无监督潜在空间上下文选择提升表格数据小样本学习性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表格数据 小样本学习 上下文选择 无监督学习 预训练模型

📋 核心要点

  1. 表格数据小样本学习中,如何在无标签情况下有效选择标注实例是核心挑战,现有方法在原始特征空间表现不佳。
  2. LUCoS利用无监督预训练模型学习到的潜在空间几何结构,通过选择代表性的medoids来构建上下文,提升选择质量。
  3. 实验表明,LUCoS在多个数据集和低标签预算下,显著优于现有方法,尤其在AUC、ACC和F1等指标上表现突出。

📝 摘要(中文)

在表格数据低标签学习中,选择哪些实例进行标注是一个关键挑战。对于TabPFN等表格数据预训练模型,上下文选择直接决定了预测性能。监督实验表明,精心选择的标注上下文集合可以显著优于随机选择。然而,在冷启动设置下,即在没有任何标签可用之前选择实例,该问题在TFM文献中受到的关注较少。这个问题本质上是几何问题。在视觉和语言领域,预训练模型诱导的嵌入空间使得简单的几何选择方法有效。相比之下,表格实例选择主要在原始表格空间中进行,缺乏自然的度量;异构类型、混合尺度和非线性交互使得原始空间距离对于上下文构建不可靠,并且随着预算的增加,原始空间选择在大多数数据集上低于随机选择。我们提出了LUCoS(Latent Unsupervised Context Selection),它用来自无监督Prior-Fitted Network(PFN)的嵌入所诱导的潜在几何代替原始特征几何,并选择代表性的medoids作为上下文。在67个OpenML-CC18数据集上,在六个低标签预算下进行评估,LUCoS在平均AUC、ACC和F1下排名第一,结论在指标和数据集级别的鲁棒性检查中保持稳定。增益分解揭示了一个简单的机制:在最小的预算下,主要好处来自强制覆盖;随着预算的增加,决定性因素成为衡量覆盖范围的表示空间。LUCoS减轻了原始特征空间选择的失败,表明可靠的无监督上下文选择较少依赖于选择器的复杂性,而更多地依赖于在有意义的表示几何中定义代表性。

🔬 方法详解

问题定义:论文旨在解决表格数据上,在极少标注样本情况下,如何选择最具代表性的样本进行标注,以最大化模型性能的问题。现有方法主要在原始特征空间进行选择,但表格数据的异构性、尺度差异以及非线性关系使得原始特征空间的距离度量不可靠,导致选择效果不佳,甚至不如随机选择。

核心思路:论文的核心思路是利用无监督预训练模型学习到的潜在空间表示,将原始特征空间映射到更具几何意义的潜在空间。在这个潜在空间中,实例之间的距离更能反映其相似性,从而可以更有效地选择具有代表性的样本。通过在潜在空间中选择medoids(即距离其他点最近的点)作为上下文,可以保证选择的样本具有良好的覆盖性和代表性。

技术框架:LUCoS方法主要包含以下几个阶段: 1. 无监督预训练:使用Prior-Fitted Network (PFN) 在无标签数据上进行预训练,学习数据的潜在表示。 2. 潜在空间嵌入:将所有实例通过预训练的PFN映射到潜在空间中,得到每个实例的嵌入向量。 3. 上下文选择:在潜在空间中,使用k-medoids算法选择k个medoids作为上下文,即选择最具代表性的k个实例进行标注。 4. 模型训练与评估:使用选择的上下文中的标注数据训练TabPFN模型,并在测试集上评估模型性能。

关键创新:LUCoS的关键创新在于将上下文选择从原始特征空间转移到无监督学习得到的潜在空间。这种方法避免了原始特征空间的局限性,利用潜在空间的几何结构来更好地衡量实例之间的相似性,从而提高了上下文选择的质量。与现有方法相比,LUCoS不需要任何标签信息,可以在冷启动设置下有效工作。

关键设计: * Prior-Fitted Network (PFN):使用PFN作为无监督预训练模型,学习数据的潜在表示。PFN是一种专门为表格数据设计的预训练模型,能够有效地捕捉表格数据的特征。 * k-medoids算法:使用k-medoids算法在潜在空间中选择medoids。k-medoids算法是一种聚类算法,能够选择出最具代表性的k个实例,保证选择的上下文具有良好的覆盖性。 * 超参数k的选择:k的选择取决于标注预算。论文中实验了不同的k值,并分析了k值对模型性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LUCoS在67个OpenML-CC18数据集上,在六个低标签预算下,平均AUC、ACC和F1指标均排名第一,显著优于在原始特征空间进行上下文选择的方法,并且结论在不同指标和数据集上具有鲁棒性。增益分解实验表明,在小预算下,LUCoS主要通过强制覆盖来提升性能;随着预算增加,潜在空间的表示质量成为决定性因素。

🎯 应用场景

LUCoS方法可广泛应用于表格数据的小样本学习场景,例如医疗诊断、金融风控、客户流失预测等。在这些场景中,获取大量标注数据成本高昂,LUCoS能够以较少的标注成本,显著提升模型性能,具有重要的实际应用价值。未来,该方法可以进一步扩展到其他类型的数据,例如文本和图像数据,为更多领域的低资源学习提供解决方案。

📄 摘要(原文)

Selecting which instances to label is a key challenge in low-label tabular learning. For recent Tabular Foundation Models such as TabPFN, context selection directly determines predictive performance. Supervised oracle experiments show that carefully chosen labeled context sets can strongly outperform random selection under the same labeling budget. However, the cold-start setting, where instances must be selected before any labels are available, has received little attention in the TFM literature. This problem is fundamentally geometric. In vision and language, foundation models induce embedding spaces where simple geometric selection methods are effective. In contrast, tabular instance selection has so far been performed predominantly in the original tabular space, which lacks a natural metric; heterogeneous types, mixed scales, and nonlinear interactions make raw-space distances unreliable for context construction, and original-space selection falls below random on the majority of datasets as the budget grows. We propose LUCoS (Latent Unsupervised Context Selection), which replaces raw-feature geometry with the latent geometry induced by embeddings from an unsupervised Prior-Fitted Network (PFN) and selects representative medoids as context. Evaluated on 67 OpenML-CC18 datasets across six low-label budgets, LUCoS ranks first under mean AUC, ACC, and F1, with conclusions stable across metrics and dataset-level robustness checks. A gain decomposition reveals a simple mechanism: at the smallest budgets, the main benefit comes from enforcing coverage; as the budget increases, the decisive factor becomes the representation space in which coverage is measured. LUCoS mitigates failures of original feature space selection, showing that reliable unsupervised context selection depends less on selector sophistication than on defining representativeness in a meaningful representation geometry.