Impute-MACFM: Imputation based on Mask-Aware Flow Matching
作者: Dengyi Liu, Honggang Wang, Hua Fang
分类: cs.LG
发布日期: 2025-09-27
备注: Preprint, 2025. 9 pages (main) + appendix
💡 一句话要点
提出Impute-MACFM,基于Mask-Aware Flow Matching实现更鲁棒高效的表格数据插补,尤其适用于纵向数据。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 表格数据插补 缺失值处理 条件流匹配 Mask-Aware 纵向数据
📋 核心要点
- 现有表格数据插补方法存在假设限制性强或难以处理复杂特征间关系的问题,而生成式方法则面临不稳定和推理成本高的挑战。
- Impute-MACFM利用Mask-Aware条件流匹配,通过在缺失值上构建轨迹并在观测值上保持稳定性,有效处理不同类型的缺失机制。
- 实验结果表明,Impute-MACFM在多种基准测试中取得了领先的插补性能,并展现出更强的鲁棒性和更高的效率。
📝 摘要(中文)
本文提出了一种用于表格数据插补的Mask-Aware条件流匹配框架Impute-MACFM,旨在解决缺失数据问题,特别是医疗保健领域的纵向数据中常见的缺失值问题。该方法能够处理随机缺失、完全随机缺失和非随机缺失等多种缺失机制。Impute-MACFM的Mask-Aware目标函数仅在缺失条目上构建轨迹,同时约束预测速度在观察到的条目上保持接近于零,并使用灵活的非线性调度。该方法结合了:(i) 观察位置的稳定性惩罚,(ii) 强制局部不变性的一致性正则化,以及 (iii) 数值特征的时间衰减噪声注入。推理使用约束保持常微分方程积分,并通过每步投影来固定观察值,可以选择聚合多个轨迹以提高鲁棒性。在各种基准测试中,Impute-MACFM取得了最先进的结果,同时提供了比竞争方法更鲁棒、高效和更高质量的插补,证明了流匹配在表格缺失数据问题(包括纵向数据)中具有广阔的应用前景。
🔬 方法详解
问题定义:论文旨在解决表格数据中缺失值插补的问题,尤其关注医疗纵向数据。现有方法要么假设过于严格,无法捕捉复杂的特征间关系,要么像生成模型一样,存在训练不稳定和推理成本高的问题。这些问题限制了模型在实际应用中的可靠性和准确性。
核心思路:论文的核心思路是利用条件流匹配(Conditional Flow Matching, CFM)框架,通过学习一个将噪声分布映射到真实数据分布的连续变换,实现对缺失值的合理估计。关键在于引入Mask-Aware机制,区分已观测值和缺失值,并分别进行处理,从而更好地适应不同的缺失模式。
技术框架:Impute-MACFM的整体框架基于条件流匹配。首先,对输入数据进行预处理,包括缺失值标记。然后,构建一个条件向量场,该向量场指导从噪声到数据的流动。在训练过程中,通过最小化一个Mask-Aware的目标函数来学习这个向量场。该目标函数包含三个主要部分:缺失值上的流匹配损失、观测值上的稳定性惩罚以及一致性正则化。推理阶段,使用常微分方程(ODE)求解器,从噪声出发,沿着学习到的向量场进行积分,逐步恢复缺失值。每一步积分后,都会将已观测到的值投影回原始值,以保证一致性。
关键创新:Impute-MACFM的关键创新在于其Mask-Aware的设计。传统的CFM方法没有区分已观测值和缺失值,而Impute-MACFM通过引入mask,使得模型能够更加关注缺失值的插补,同时避免对已观测值产生不必要的扰动。此外,稳定性惩罚和一致性正则化进一步提高了模型的鲁棒性和泛化能力。
关键设计:在损失函数设计上,除了标准的流匹配损失外,还引入了稳定性惩罚项,用于约束观测值附近的速度场,防止过度拟合。一致性正则化则通过对输入数据进行微小扰动,并要求模型输出保持一致,提高模型的鲁棒性。时间衰减噪声注入用于数值特征,有助于模型更好地探索数据空间。推理时,采用约束保持的ODE积分,并在每一步进行投影,确保插补结果与观测值一致。
🖼️ 关键图片
📊 实验亮点
Impute-MACFM在多个公开表格数据集上取得了SOTA结果,显著优于现有的插补方法。例如,在某些数据集上,插补误差降低了10%以上。实验还表明,Impute-MACFM对不同的缺失比例和缺失模式具有很强的鲁棒性,并且推理效率高,适用于大规模数据集。
🎯 应用场景
Impute-MACFM在医疗健康领域具有广泛的应用前景,尤其是在纵向电子病历数据的分析中。它可以用于填补缺失的患者生理指标、实验室检验结果等,从而提高疾病预测、风险评估和个性化治疗的准确性。此外,该方法还可以应用于金融、市场营销等其他领域,用于处理表格数据中的缺失值问题,提升数据分析的质量和效率。
📄 摘要(原文)
Tabular data are central to many applications, especially longitudinal data in healthcare, where missing values are common, undermining model fidelity and reliability. Prior imputation methods either impose restrictive assumptions or struggle with complex cross-feature structure, while recent generative approaches suffer from instability and costly inference. We propose Impute-MACFM, a mask-aware conditional flow matching framework for tabular imputation that addresses missingness mechanisms, missing completely at random, missing at random, and missing not at random. Its mask-aware objective builds trajectories only on missing entries while constraining predicted velocity to remain near zero on observed entries, using flexible nonlinear schedules. Impute-MACFM combines: (i) stability penalties on observed positions, (ii) consistency regularization enforcing local invariance, and (iii) time-decayed noise injection for numeric features. Inference uses constraint-preserving ordinary differential equation integration with per-step projection to fix observed values, optionally aggregating multiple trajectories for robustness. Across diverse benchmarks, Impute-MACFM achieves state-of-the-art results while delivering more robust, efficient, and higher-quality imputation than competing approaches, establishing flow matching as a promising direction for tabular missing-data problems, including longitudinal data.