Cascaded Flow Matching for Heterogeneous Tabular Data with Mixed-Type Features

📄 arXiv: 2601.22816v1 📥 PDF

作者: Markus Mueller, Kathrin Gruber, Dennis Fok

分类: cs.LG, stat.ML

发布日期: 2026-01-30


💡 一句话要点

提出级联流匹配模型,用于生成包含混合类型特征的异构表格数据

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 表格数据生成 流匹配模型 混合类型特征 级联模型 条件生成

📋 核心要点

  1. 现有表格数据生成模型难以有效处理混合类型特征,尤其是在单个特征中同时存在离散状态和连续分布的情况。
  2. 论文提出一种级联流匹配方法,首先生成低分辨率的类别特征和数值特征的粗略表示,再引导高分辨率的流匹配模型生成最终数据。
  3. 实验结果表明,该模型能够生成更逼真的样本,并更准确地捕捉分布细节,例如检测分数提高了40%。

📝 摘要(中文)

本文针对表格数据生成任务,特别是包含离散和连续混合类型特征的数据,提出了一个级联流匹配方法。现有方法在生成混合类型特征时面临挑战,难以同时处理离散状态和连续分布。本文首先生成表格数据行的低分辨率版本,包含纯粹的类别特征和数值特征的粗略类别表示。然后,通过新颖的引导条件概率路径和数据相关的耦合,将这些信息用于高分辨率的流匹配模型。数值特征的低分辨率表示显式地考虑了离散结果,例如缺失值或膨胀值,从而能够更真实地生成混合类型特征。论文在理论上证明了这种级联结构收紧了传输成本的界限。实验结果表明,该模型生成了更逼真的样本,并更准确地捕捉了分布细节,例如检测分数提高了40%。

🔬 方法详解

问题定义:论文旨在解决表格数据生成中,混合类型特征(同时包含离散和连续值)难以建模的问题。现有方法在处理此类数据时,无法很好地捕捉离散状态(如缺失值)和连续分布的复杂关系,导致生成的数据质量不高。

核心思路:论文的核心思路是采用级联的方式,先生成数据的低分辨率版本(类别特征和数值特征的粗略类别表示),再利用这些信息引导高分辨率数据的生成。这种方法将混合类型特征的生成分解为两个阶段,从而更好地处理离散和连续值的混合。

技术框架:整体框架包含两个主要阶段:1) 低分辨率数据生成:使用一个生成模型(具体模型类型未知)生成类别特征和数值特征的粗略类别表示。2) 高分辨率数据生成:使用流匹配模型,并利用低分辨率数据作为条件,生成最终的表格数据。关键在于设计一个引导条件概率路径和数据相关的耦合机制,将低分辨率信息有效地融入到高分辨率生成过程中。

关键创新:论文的关键创新在于级联的生成框架和引导条件概率路径的设计。通过先生成低分辨率数据,再利用其引导高分辨率数据的生成,可以更好地处理混合类型特征。引导条件概率路径的具体实现方式未知,但其目的是将低分辨率信息有效地融入到高分辨率生成过程中。

关键设计:论文的关键设计包括:1) 数值特征的粗略类别表示方法,需要将连续值转换为离散类别,具体转换方法未知。2) 引导条件概率路径的设计,需要确定如何将低分辨率信息融入到高分辨率流匹配模型中,具体实现细节未知。3) 数据相关的耦合机制,需要根据数据特征动态调整耦合强度,具体实现细节未知。此外,损失函数的设计也至关重要,需要保证生成数据的质量和分布的准确性,具体形式未知。

📊 实验亮点

实验结果表明,该模型能够生成更逼真的表格数据样本,并更准确地捕捉数据分布的细节。具体而言,检测分数(detection score)提高了40%,表明生成的数据与真实数据的相似度显著提升。该结果验证了级联流匹配方法在处理混合类型特征表格数据生成任务上的有效性。

🎯 应用场景

该研究成果可应用于各种需要生成表格数据的场景,例如:金融风控中的合成数据生成、医疗健康领域的患者数据模拟、以及市场营销中的用户画像生成等。高质量的合成数据可以用于模型训练、数据增强、隐私保护等目的,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

Advances in generative modeling have recently been adapted to tabular data containing discrete and continuous features. However, generating mixed-type features that combine discrete states with an otherwise continuous distribution in a single feature remains challenging. We advance the state-of-the-art in diffusion models for tabular data with a cascaded approach. We first generate a low-resolution version of a tabular data row, that is, the collection of the purely categorical features and a coarse categorical representation of numerical features. Next, this information is leveraged in the high-resolution flow matching model via a novel guided conditional probability path and data-dependent coupling. The low-resolution representation of numerical features explicitly accounts for discrete outcomes, such as missing or inflated values, and therewith enables a more faithful generation of mixed-type features. We formally prove that this cascade tightens the transport cost bound. The results indicate that our model generates significantly more realistic samples and captures distributional details more accurately, for example, the detection score increases by 40%.