Prior-Aligned Data Cleaning for Tabular Foundation Models
作者: Laure Berti-Equille
分类: cs.LG, cs.DB
发布日期: 2026-04-28
备注: 15 pages, 8 figures
💡 一句话要点
提出L2C2框架,通过强化学习进行先验对齐的数据清洗,提升表格基础模型性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格数据清洗 强化学习 先验对齐 表格基础模型 零样本学习
📋 核心要点
- 表格基础模型在真实数据上的性能受数据质量影响,现有方法难以应对数据中的缺失值、异常值和重复值等问题。
- L2C2框架将数据清洗视为先验对齐问题,利用强化学习训练策略,选择合适的清洗算子序列,缩小脏数据与模型先验之间的差距。
- 实验表明,精心设计的奖励函数至关重要,TFMAwareReward能有效提升模型精度,且预训练策略具有跨数据集迁移能力。
📝 摘要(中文)
表格基础模型(TFMs)通过在合成数据生成过程上进行元学习,在小型表格数据集上实现了最先进的零样本精度。然而,它们的上下文学习机制假设输入是近似干净的:真实世界数据中缺失值、异常值和重复项会造成先验不匹配,同时降低准确性和置信度校准。纠正这种不匹配需要对清洗算子进行序列决策,而静态预处理规则无法预测这些算子的交互作用,这非常适合强化学习(RL)。我们引入L2C2,这是第一个将表格数据清洗构建为先验对齐的深度RL框架:一个学习到的策略对算子进行排序,以最小化脏输入和TFM的合成先验之间的分布差距。在十个OpenML基准数据集上的六个实验表明:1) 七个奖励设计中有三个崩溃为退化的平凡清洗策略——有原则的奖励工程在科学上并非易事;2) 我们提出的新颖的TFMAwareReward奖励在4/10的数据集上选择了结构上不同的管道,并在这些不同的情况下实现了更高的TabPFN精度(平均0.851 vs. 0.843;Wilcoxon p=0.063,n=4),同时从未表现不佳;3) 参数化清洗操作改进了9/10数据集上最佳管道奖励(Wilcoxon p=0.004);4) 在单个源数据集上预训练的策略在所有三个保留数据集上的2,000步微调检查点上超过了从头开始训练(在完全微调后高达+28.8%),证明了先验对齐知识的跨数据集迁移。这些发现表明,先验对齐是TFM在真实世界表格数据上部署的一种有原则的数据准备策略。
🔬 方法详解
问题定义:论文旨在解决表格基础模型(TFMs)在真实世界脏数据上的性能下降问题。现有方法通常采用静态的预处理规则,无法有效应对数据中复杂的缺失值、异常值和重复值等问题,导致TFMs的准确性和置信度校准同时降低。这些问题源于真实数据分布与TFMs训练时使用的合成数据分布之间的不匹配(先验不匹配)。
核心思路:论文的核心思路是将数据清洗过程建模为一个序列决策问题,利用强化学习(RL)训练一个策略,该策略能够根据当前数据状态,选择合适的清洗算子(如缺失值填充、异常值移除、重复值删除等)进行数据清洗,从而最小化脏数据分布与TFMs的合成先验分布之间的差距,实现先验对齐。
技术框架:L2C2框架包含以下主要模块:1) 环境(Environment):表示待清洗的表格数据集,以及当前的数据状态。2) 智能体(Agent):基于深度神经网络的强化学习策略,负责根据当前数据状态选择清洗算子。3) 动作空间(Action Space):定义了可用的清洗算子集合,每个算子可以有参数。4) 奖励函数(Reward Function):用于评估清洗算子序列的质量,指导智能体的学习。论文提出了TFMAwareReward,该奖励函数直接基于TFMs在清洗后的数据上的性能进行评估。5) 训练过程:智能体与环境交互,通过不断尝试不同的清洗算子序列,并根据奖励函数进行学习,最终获得一个能够有效进行数据清洗的策略。
关键创新:L2C2框架的关键创新在于:1) 将数据清洗问题建模为先验对齐问题,并利用强化学习进行求解。2) 提出了TFMAwareReward,该奖励函数能够直接反映清洗操作对TFMs性能的影响,从而更有效地指导智能体的学习。3) 实现了参数化的清洗动作,使得智能体能够更灵活地选择清洗算子,并调整其参数。
关键设计:1) 奖励函数设计:论文尝试了多种奖励函数,最终发现TFMAwareReward效果最好。该奖励函数基于TabPFN模型在清洗后的数据上的准确率进行计算。2) 动作空间设计:动作空间包括多种常用的数据清洗算子,如缺失值填充(均值、中位数、众数等)、异常值移除(基于统计方法)、重复值删除等。每个算子可以有参数,例如缺失值填充算子可以选择不同的填充策略。3) 网络结构设计:智能体采用深度神经网络作为策略网络,输入为当前数据状态的表示,输出为每个清洗算子的选择概率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,L2C2框架能够有效提升表格基础模型在脏数据上的性能。TFMAwareReward在4/10的数据集上选择了结构上不同的管道,并在这些情况下实现了更高的TabPFN精度(平均0.851 vs. 0.843;Wilcoxon p=0.063,n=4)。此外,预训练策略在三个保留数据集上的微调结果表明,该方法具有良好的跨数据集迁移能力,在完全微调后,性能提升高达+28.8%。
🎯 应用场景
该研究成果可应用于各种需要使用表格基础模型的场景,尤其是在数据质量较差的情况下。例如,金融风控、医疗诊断、市场营销等领域,可以利用该方法提升模型在真实数据上的性能,降低数据清洗成本,提高决策效率。未来,该方法有望推广到其他类型的数据清洗任务中。
📄 摘要(原文)
Tabular Foundation Models (TFMs) achieve state-of-the-art zero-shot accuracy on small tabular datasets by meta-learning over synthetic data-generating processes -- making them highly attractive for practitioners who cannot afford large annotated corpora. However, their in-context learning mechanism assumes approximately clean inputs: missing values, outliers, and duplicates in the real-world data create a prior mismatch that degrades both accuracy and confidence calibration simultaneously. Correcting this mismatch requires sequential decisions over cleaning operators whose interactions no static preprocessing rule can anticipate -a natural fit for reinforcement learning~(RL). We introduce L2C2, the first deep RL framework framing tabular data cleaning as prior alignment: a learned policy sequences operators to minimize the distributional gap between dirty input and the TFM's synthetic prior. Six experiments on ten OpenML benchmark datasets establish: 1) three of seven reward designs collapse to degenerate trivial cleaning strategies -- principled reward engineering is scientifically non-trivial; 2) the novel TFMAwareReward reward we propose selects structurally distinct pipelines on 4/10 datasets and achieves higher TabPFN accuracy on those diverging cases (mean 0.851 vs. 0.843; Wilcoxon p=0.063, n=4) while never underperforming; 3) parameterized cleaning actions improve best-found pipeline reward on 9/10 datasets (Wilcoxon p=0.004); and 4) a policy pre-trained on one single source dataset exceeds scratch training at the 2,000-step fine-tuning checkpoint on all three held-out datasets (up to +28.8% after full fine-tuning) demonstrating cross-dataset transfer of prior-alignment knowledge. These findings establish that prior alignment is a principled data preparation strategy for TFM deployment on real-world tabular data.