Limited Reference, Reliable Generation: A Two-Component Framework for Tabular Data Generation in Low-Data Regimes

作者: Mingxuan Jiang, Yongxin Wang, Ziyue Dai, Yicun Liu, Hongyi Nie, Sen Liu, Hongfeng Chai

分类: cs.LG, cs.AI

发布日期: 2025-09-12

💡 一句话要点

提出ReFine框架，解决低数据量下表格数据生成难题，提升下游任务性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 表格数据生成 低数据量学习 规则嵌入 提示学习 数据增强 可解释模型 数据过滤

📋 核心要点

现有表格数据生成方法依赖大量数据，在低数据场景下表现不佳，且基于提示的LLM无法有效捕捉特征-标签依赖。
ReFine框架通过从可解释模型提取规则并嵌入提示，引导生成过程，同时采用双粒度过滤减少分布不平衡。
实验结果表明，ReFine在回归和分类任务中均优于现有方法，R平方提升高达0.44，F1分数提升10.0%。

📝 摘要（中文）

合成表格数据生成在数据管理中日益重要，尤其是在真实且高质量的表格数据不足时，为下游应用提供支持。现有的表格生成方法，如生成对抗网络（GANs）、扩散模型和微调的大型语言模型（LLMs），通常需要充足的参考数据，这限制了它们在记录稀缺的特定领域数据库中的有效性。虽然基于提示的LLMs提供了无需参数调整的灵活性，但它们常常无法捕捉数据集特定的特征-标签依赖关系，并生成冗余数据，导致下游任务性能下降。为了克服这些问题，我们提出了ReFine，一个框架，它（i）从可解释模型中导出符号“if-then”规则，并将它们嵌入到提示中，以显式地引导生成朝向特定领域的特征分布，以及（ii）应用双粒度过滤策略，抑制过度采样模式，并选择性地细化稀有但信息丰富的样本，以减少分布不平衡。在各种回归和分类基准上的大量实验表明，ReFine始终优于最先进的方法，在回归任务中实现了高达0.44的R平方绝对提升，在分类任务中实现了10.0%的F1分数相对提升。

🔬 方法详解

问题定义：论文旨在解决低数据量场景下表格数据生成的问题。现有方法，如GANs、扩散模型和微调LLMs，需要大量参考数据，在数据稀缺的领域表现不佳。基于提示的LLMs虽然灵活，但无法有效捕捉特征-标签依赖，导致生成数据冗余，下游任务性能下降。

核心思路：ReFine的核心思路是利用从可解释模型中提取的规则来指导LLM的生成过程，并采用过滤策略来平衡生成数据的分布。通过将领域知识融入生成过程，并抑制过度采样，从而提高生成数据的质量和多样性。

技术框架：ReFine框架包含两个主要组件：(1) 基于规则的提示生成器：从可解释模型（如决策树）中提取“if-then”规则，并将这些规则嵌入到LLM的提示中，以指导生成过程。(2) 双粒度过滤策略：该策略包含两个阶段：首先，抑制过度采样的模式，减少冗余数据；其次，选择性地细化稀有但信息丰富的样本，以减少分布不平衡。

关键创新：ReFine的关键创新在于将可解释模型的规则嵌入到LLM的提示中，从而将领域知识融入到生成过程中。此外，双粒度过滤策略能够有效平衡生成数据的分布，提高数据的质量和多样性。与现有方法相比，ReFine不需要大量参考数据，并且能够更好地捕捉特征-标签依赖。

关键设计：具体的可解释模型选择和规则提取方法未知。双粒度过滤策略的具体实现细节，例如如何定义“过度采样模式”和“信息丰富的样本”，以及如何进行选择性细化，也未知。LLM的选择和提示工程的具体方法未知。损失函数和网络结构等技术细节也未知。

🖼️ 关键图片

📊 实验亮点

ReFine在多个回归和分类基准测试中表现出色，显著优于现有方法。在回归任务中，R平方提升高达0.44。在分类任务中，F1分数相对提升10.0%。这些结果表明，ReFine能够有效解决低数据量下的表格数据生成问题，并提高下游任务的性能。

🎯 应用场景

ReFine框架可应用于医疗、金融等数据稀缺的领域，生成高质量的合成表格数据，用于模型训练、数据增强和隐私保护。该研究有助于解决数据孤岛问题，促进领域知识的共享和利用，并为下游任务提供更可靠的数据支持。未来，该方法可扩展到其他类型的数据生成任务，例如图像和文本生成。

📄 摘要（原文）

Synthetic tabular data generation is increasingly essential in data management, supporting downstream applications when real-world and high-quality tabular data is insufficient. Existing tabular generation approaches, such as generative adversarial networks (GANs), diffusion models, and fine-tuned Large Language Models (LLMs), typically require sufficient reference data, limiting their effectiveness in domain-specific databases with scarce records. While prompt-based LLMs offer flexibility without parameter tuning, they often fail to capture dataset-specific feature-label dependencies and generate redundant data, leading to degradation in downstream task performance. To overcome these issues, we propose ReFine, a framework that (i) derives symbolic "if-then" rules from interpretable models and embeds them into prompts to explicitly guide generation toward domain-specific feature distribution, and (ii) applies a dual-granularity filtering strategy that suppresses over-sampling patterns and selectively refines rare but informative samples to reduce distributional imbalance. Extensive experiments on various regression and classification benchmarks demonstrate that ReFine consistently outperforms state-of-the-art methods, achieving up to 0.44 absolute improvement in R-squared for regression and 10.0 percent relative improvement in F1 score for classification tasks.

Limited Reference, Reliable Generation: A Two-Component Framework for Tabular Data Generation in Low-Data Regimes

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理