Prior-Aligned Data Cleaning for Tabular Foundation Models

作者: Laure Berti-Equille

分类: cs.LG, cs.DB

发布日期: 2026-04-28

备注: 15 pages, 8 figures

💡 一句话要点

提出L2C2框架，通过强化学习进行先验对齐的数据清洗，提升表格基础模型性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 表格数据清洗 强化学习 先验对齐 表格基础模型 零样本学习

📋 核心要点

表格基础模型在真实数据上的性能受数据质量影响，现有方法难以应对数据中的缺失值、异常值和重复值等问题。
L2C2框架将数据清洗视为先验对齐问题，利用强化学习训练策略，选择合适的清洗算子序列，缩小脏数据与模型先验之间的差距。
实验表明，精心设计的奖励函数至关重要，TFMAwareReward能有效提升模型精度，且预训练策略具有跨数据集迁移能力。

📝 摘要（中文）

表格基础模型(TFMs)通过在合成数据生成过程上进行元学习，在小型表格数据集上实现了最先进的零样本精度。然而，它们的上下文学习机制假设输入是近似干净的：真实世界数据中缺失值、异常值和重复项会造成先验不匹配，同时降低准确性和置信度校准。纠正这种不匹配需要对清洗算子进行序列决策，而静态预处理规则无法预测这些算子的交互作用，这非常适合强化学习(RL)。我们引入L2C2，这是第一个将表格数据清洗构建为先验对齐的深度RL框架：一个学习到的策略对算子进行排序，以最小化脏输入和TFM的合成先验之间的分布差距。在十个OpenML基准数据集上的六个实验表明：1) 七个奖励设计中有三个崩溃为退化的平凡清洗策略——有原则的奖励工程在科学上并非易事；2) 我们提出的新颖的TFMAwareReward奖励在4/10的数据集上选择了结构上不同的管道，并在这些不同的情况下实现了更高的TabPFN精度（平均0.851 vs. 0.843；Wilcoxon p=0.063，n=4），同时从未表现不佳；3) 参数化清洗操作改进了9/10数据集上最佳管道奖励（Wilcoxon p=0.004）；4) 在单个源数据集上预训练的策略在所有三个保留数据集上的2,000步微调检查点上超过了从头开始训练（在完全微调后高达+28.8%），证明了先验对齐知识的跨数据集迁移。这些发现表明，先验对齐是TFM在真实世界表格数据上部署的一种有原则的数据准备策略。

🔬 方法详解

问题定义：论文旨在解决表格基础模型(TFMs)在真实世界脏数据上的性能下降问题。现有方法通常采用静态的预处理规则，无法有效应对数据中复杂的缺失值、异常值和重复值等问题，导致TFMs的准确性和置信度校准同时降低。这些问题源于真实数据分布与TFMs训练时使用的合成数据分布之间的不匹配（先验不匹配）。

核心思路：论文的核心思路是将数据清洗过程建模为一个序列决策问题，利用强化学习(RL)训练一个策略，该策略能够根据当前数据状态，选择合适的清洗算子（如缺失值填充、异常值移除、重复值删除等）进行数据清洗，从而最小化脏数据分布与TFMs的合成先验分布之间的差距，实现先验对齐。

技术框架：L2C2框架包含以下主要模块：1) 环境(Environment)：表示待清洗的表格数据集，以及当前的数据状态。2) 智能体(Agent)：基于深度神经网络的强化学习策略，负责根据当前数据状态选择清洗算子。3) 动作空间(Action Space)：定义了可用的清洗算子集合，每个算子可以有参数。4) 奖励函数(Reward Function)：用于评估清洗算子序列的质量，指导智能体的学习。论文提出了TFMAwareReward，该奖励函数直接基于TFMs在清洗后的数据上的性能进行评估。5) 训练过程：智能体与环境交互，通过不断尝试不同的清洗算子序列，并根据奖励函数进行学习，最终获得一个能够有效进行数据清洗的策略。

关键创新：L2C2框架的关键创新在于：1) 将数据清洗问题建模为先验对齐问题，并利用强化学习进行求解。2) 提出了TFMAwareReward，该奖励函数能够直接反映清洗操作对TFMs性能的影响，从而更有效地指导智能体的学习。3) 实现了参数化的清洗动作，使得智能体能够更灵活地选择清洗算子，并调整其参数。

关键设计：1) 奖励函数设计：论文尝试了多种奖励函数，最终发现TFMAwareReward效果最好。该奖励函数基于TabPFN模型在清洗后的数据上的准确率进行计算。2) 动作空间设计：动作空间包括多种常用的数据清洗算子，如缺失值填充（均值、中位数、众数等）、异常值移除（基于统计方法）、重复值删除等。每个算子可以有参数，例如缺失值填充算子可以选择不同的填充策略。3) 网络结构设计：智能体采用深度神经网络作为策略网络，输入为当前数据状态的表示，输出为每个清洗算子的选择概率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，L2C2框架能够有效提升表格基础模型在脏数据上的性能。TFMAwareReward在4/10的数据集上选择了结构上不同的管道，并在这些情况下实现了更高的TabPFN精度（平均0.851 vs. 0.843；Wilcoxon p=0.063，n=4）。此外，预训练策略在三个保留数据集上的微调结果表明，该方法具有良好的跨数据集迁移能力，在完全微调后，性能提升高达+28.8%。

🎯 应用场景

该研究成果可应用于各种需要使用表格基础模型的场景，尤其是在数据质量较差的情况下。例如，金融风控、医疗诊断、市场营销等领域，可以利用该方法提升模型在真实数据上的性能，降低数据清洗成本，提高决策效率。未来，该方法有望推广到其他类型的数据清洗任务中。

📄 摘要（原文）

Tabular Foundation Models (TFMs) achieve state-of-the-art zero-shot accuracy on small tabular datasets by meta-learning over synthetic data-generating processes -- making them highly attractive for practitioners who cannot afford large annotated corpora. However, their in-context learning mechanism assumes approximately clean inputs: missing values, outliers, and duplicates in the real-world data create a prior mismatch that degrades both accuracy and confidence calibration simultaneously. Correcting this mismatch requires sequential decisions over cleaning operators whose interactions no static preprocessing rule can anticipate -a natural fit for reinforcement learning~(RL). We introduce L2C2, the first deep RL framework framing tabular data cleaning as prior alignment: a learned policy sequences operators to minimize the distributional gap between dirty input and the TFM's synthetic prior. Six experiments on ten OpenML benchmark datasets establish: 1) three of seven reward designs collapse to degenerate trivial cleaning strategies -- principled reward engineering is scientifically non-trivial; 2) the novel TFMAwareReward reward we propose selects structurally distinct pipelines on 4/10 datasets and achieves higher TabPFN accuracy on those diverging cases (mean 0.851 vs. 0.843; Wilcoxon p=0.063, n=4) while never underperforming; 3) parameterized cleaning actions improve best-found pipeline reward on 9/10 datasets (Wilcoxon p=0.004); and 4) a policy pre-trained on one single source dataset exceeds scratch training at the 2,000-step fine-tuning checkpoint on all three held-out datasets (up to +28.8% after full fine-tuning) demonstrating cross-dataset transfer of prior-alignment knowledge. These findings establish that prior alignment is a principled data preparation strategy for TFM deployment on real-world tabular data.

Prior-Aligned Data Cleaning for Tabular Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理