Limited Reference, Reliable Generation: A Two-Component Framework for Tabular Data Generation in Low-Data Regimes

📄 arXiv: 2509.09960v1 📥 PDF

作者: Mingxuan Jiang, Yongxin Wang, Ziyue Dai, Yicun Liu, Hongyi Nie, Sen Liu, Hongfeng Chai

分类: cs.LG, cs.AI

发布日期: 2025-09-12


💡 一句话要点

提出ReFine框架,解决低数据量下表格数据生成难题,提升下游任务性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表格数据生成 低数据量学习 规则嵌入 提示学习 数据增强 可解释模型 数据过滤

📋 核心要点

  1. 现有表格数据生成方法依赖大量数据,在低数据场景下表现不佳,且基于提示的LLM无法有效捕捉特征-标签依赖。
  2. ReFine框架通过从可解释模型提取规则并嵌入提示,引导生成过程,同时采用双粒度过滤减少分布不平衡。
  3. 实验结果表明,ReFine在回归和分类任务中均优于现有方法,R平方提升高达0.44,F1分数提升10.0%。

📝 摘要(中文)

合成表格数据生成在数据管理中日益重要,尤其是在真实且高质量的表格数据不足时,为下游应用提供支持。现有的表格生成方法,如生成对抗网络(GANs)、扩散模型和微调的大型语言模型(LLMs),通常需要充足的参考数据,这限制了它们在记录稀缺的特定领域数据库中的有效性。虽然基于提示的LLMs提供了无需参数调整的灵活性,但它们常常无法捕捉数据集特定的特征-标签依赖关系,并生成冗余数据,导致下游任务性能下降。为了克服这些问题,我们提出了ReFine,一个框架,它(i)从可解释模型中导出符号“if-then”规则,并将它们嵌入到提示中,以显式地引导生成朝向特定领域的特征分布,以及(ii)应用双粒度过滤策略,抑制过度采样模式,并选择性地细化稀有但信息丰富的样本,以减少分布不平衡。在各种回归和分类基准上的大量实验表明,ReFine始终优于最先进的方法,在回归任务中实现了高达0.44的R平方绝对提升,在分类任务中实现了10.0%的F1分数相对提升。

🔬 方法详解

问题定义:论文旨在解决低数据量场景下表格数据生成的问题。现有方法,如GANs、扩散模型和微调LLMs,需要大量参考数据,在数据稀缺的领域表现不佳。基于提示的LLMs虽然灵活,但无法有效捕捉特征-标签依赖,导致生成数据冗余,下游任务性能下降。

核心思路:ReFine的核心思路是利用从可解释模型中提取的规则来指导LLM的生成过程,并采用过滤策略来平衡生成数据的分布。通过将领域知识融入生成过程,并抑制过度采样,从而提高生成数据的质量和多样性。

技术框架:ReFine框架包含两个主要组件:(1) 基于规则的提示生成器:从可解释模型(如决策树)中提取“if-then”规则,并将这些规则嵌入到LLM的提示中,以指导生成过程。(2) 双粒度过滤策略:该策略包含两个阶段:首先,抑制过度采样的模式,减少冗余数据;其次,选择性地细化稀有但信息丰富的样本,以减少分布不平衡。

关键创新:ReFine的关键创新在于将可解释模型的规则嵌入到LLM的提示中,从而将领域知识融入到生成过程中。此外,双粒度过滤策略能够有效平衡生成数据的分布,提高数据的质量和多样性。与现有方法相比,ReFine不需要大量参考数据,并且能够更好地捕捉特征-标签依赖。

关键设计:具体的可解释模型选择和规则提取方法未知。双粒度过滤策略的具体实现细节,例如如何定义“过度采样模式”和“信息丰富的样本”,以及如何进行选择性细化,也未知。LLM的选择和提示工程的具体方法未知。损失函数和网络结构等技术细节也未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReFine在多个回归和分类基准测试中表现出色,显著优于现有方法。在回归任务中,R平方提升高达0.44。在分类任务中,F1分数相对提升10.0%。这些结果表明,ReFine能够有效解决低数据量下的表格数据生成问题,并提高下游任务的性能。

🎯 应用场景

ReFine框架可应用于医疗、金融等数据稀缺的领域,生成高质量的合成表格数据,用于模型训练、数据增强和隐私保护。该研究有助于解决数据孤岛问题,促进领域知识的共享和利用,并为下游任务提供更可靠的数据支持。未来,该方法可扩展到其他类型的数据生成任务,例如图像和文本生成。

📄 摘要(原文)

Synthetic tabular data generation is increasingly essential in data management, supporting downstream applications when real-world and high-quality tabular data is insufficient. Existing tabular generation approaches, such as generative adversarial networks (GANs), diffusion models, and fine-tuned Large Language Models (LLMs), typically require sufficient reference data, limiting their effectiveness in domain-specific databases with scarce records. While prompt-based LLMs offer flexibility without parameter tuning, they often fail to capture dataset-specific feature-label dependencies and generate redundant data, leading to degradation in downstream task performance. To overcome these issues, we propose ReFine, a framework that (i) derives symbolic "if-then" rules from interpretable models and embeds them into prompts to explicitly guide generation toward domain-specific feature distribution, and (ii) applies a dual-granularity filtering strategy that suppresses over-sampling patterns and selectively refines rare but informative samples to reduce distributional imbalance. Extensive experiments on various regression and classification benchmarks demonstrate that ReFine consistently outperforms state-of-the-art methods, achieving up to 0.44 absolute improvement in R-squared for regression and 10.0 percent relative improvement in F1 score for classification tasks.