Generating Tabular Data Using Heterogeneous Sequential Feature Forest Flow Matching

📄 arXiv: 2410.15516v1 📥 PDF

作者: Ange-Clément Akazan, Alexia Jolicoeur-Martineau, Ioannis Mitliagkas

分类: cs.LG

发布日期: 2024-10-20

DOI: 10.48550/arXiv.2410.15516


💡 一句话要点

提出HS3F,通过异构序列特征森林流匹配加速并提升表格数据生成质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 表格数据生成 流匹配 XGBoost 常微分方程 数据增强

📋 核心要点

  1. 现有Forest Flow方法在表格数据生成中存在速度慢、类别变量处理不佳以及对初始条件敏感等问题。
  2. HS3F通过序列化特征生成、多项式抽样生成类别变量以及使用更精确的ODE求解器来解决上述问题。
  3. 实验结果表明,HS3F在生成质量、多样性和速度方面均优于Forest Flow,尤其是在处理包含大量类别变量的数据集时。

📝 摘要(中文)

隐私和监管约束使得数据生成对于在不依赖真实世界数据集的情况下推进机器学习至关重要。Forest Flow (FF) 方法是表格数据生成领域的主流方法,它结合了流匹配和 XGBoost。尽管 FF 性能良好,但速度慢,并且在将类别变量视为 one-hot 连续特征时容易出错,同时对常微分方程 (ODE) 的初始条件非常敏感。为了克服这些限制,我们开发了异构序列特征森林流 (HS3F)。我们的方法按特征顺序生成数据,通过先前生成的特征的附加信息来减少对噪声初始条件的依赖。此外,它使用多项式抽样(来自 XGBoost 分类器)而不是流匹配来生成类别变量,从而提高了生成速度。我们还使用四阶龙格-库塔 (Rg4) ODE 求解器来提高性能,优于 FF 中使用的欧拉求解器。我们对 25 个数据集的实验表明,HS3F 比 FF 产生更高质量和更多样化的合成数据,特别是对于类别变量。对于具有 ≥20% 类别变量的数据集,它的数据生成速度也快 21-27 倍。与 FF 相比,HS3F 进一步证明了对流 ODE 初始条件中的仿射变换具有更强的鲁棒性。这项研究不仅验证了 HS3F,还揭示了推进生成模型有希望的新策略。

🔬 方法详解

问题定义:论文旨在解决表格数据生成任务中,现有 Forest Flow (FF) 方法存在的速度慢、类别变量处理不佳以及对常微分方程 (ODE) 初始条件敏感的问题。FF 将类别变量视为 one-hot 连续特征,导致生成质量下降和计算效率降低。此外,FF 使用的欧拉求解器精度较低,影响了生成数据的质量。

核心思路:论文的核心思路是采用异构序列特征生成的方式,即按特征顺序逐个生成数据。通过利用先前生成的特征信息,减少对初始条件的依赖,提高生成过程的鲁棒性。同时,针对类别变量,采用多项式抽样的方式进行生成,避免了将其视为连续特征带来的问题,提高了生成速度和质量。

技术框架:HS3F 的整体框架是序列化的特征生成流程。首先,根据特征之间的依赖关系确定生成顺序。然后,对于每个特征,如果是连续型特征,则使用流匹配方法生成;如果是类别型特征,则使用 XGBoost 分类器进行多项式抽样。在流匹配过程中,使用四阶龙格-库塔 (Rg4) 求解器来求解常微分方程 (ODE)。

关键创新:HS3F 的关键创新在于以下几点:1) 序列化特征生成,减少了对初始条件的依赖;2) 针对类别变量,采用多项式抽样生成,提高了生成速度和质量;3) 使用四阶龙格-库塔 (Rg4) 求解器,提高了 ODE 求解的精度。与 FF 相比,HS3F 能够更有效地处理包含大量类别变量的表格数据,并且具有更强的鲁棒性。

关键设计:HS3F 的关键设计包括:1) 特征生成顺序的确定方法,可能涉及到特征相关性分析等;2) XGBoost 分类器的训练方式,用于类别变量的多项式抽样;3) 四阶龙格-库塔 (Rg4) 求解器的具体实现细节;4) 流匹配过程中的损失函数设计,以及相关参数的设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HS3F 在 25 个数据集上均优于 Forest Flow (FF)。特别是在包含 ≥20% 类别变量的数据集上,HS3F 的生成速度比 FF 快 21-27 倍。此外,HS3F 生成的合成数据在质量和多样性方面也显著优于 FF,尤其是在类别变量的处理上。HS3F 还表现出更强的鲁棒性,对流 ODE 初始条件中的仿射变换不敏感。

🎯 应用场景

HS3F 可应用于各种需要生成合成表格数据的场景,例如:金融风控、医疗健康、市场营销等。通过生成高质量的合成数据,可以解决数据隐私保护问题,促进机器学习模型在数据受限领域的应用。此外,HS3F 还可以用于数据增强,提高模型的泛化能力。未来,该方法有望在更多领域发挥重要作用。

📄 摘要(原文)

Privacy and regulatory constraints make data generation vital to advancing machine learning without relying on real-world datasets. A leading approach for tabular data generation is the Forest Flow (FF) method, which combines Flow Matching with XGBoost. Despite its good performance, FF is slow and makes errors when treating categorical variables as one-hot continuous features. It is also highly sensitive to small changes in the initial conditions of the ordinary differential equation (ODE). To overcome these limitations, we develop Heterogeneous Sequential Feature Forest Flow (HS3F). Our method generates data sequentially (feature-by-feature), reducing the dependency on noisy initial conditions through the additional information from previously generated features. Furthermore, it generates categorical variables using multinomial sampling (from an XGBoost classifier) instead of flow matching, improving generation speed. We also use a Runge-Kutta 4th order (Rg4) ODE solver for improved performance over the Euler solver used in FF. Our experiments with 25 datasets reveal that HS3F produces higher quality and more diverse synthetic data than FF, especially for categorical variables. It also generates data 21-27 times faster for datasets with $\geq20%$ categorical variables. HS3F further demonstrates enhanced robustness to affine transformation in flow ODE initial conditions compared to FF. This study not only validates the HS3F but also unveils promising new strategies to advance generative models.