Tabby: A Language Model Architecture for Tabular and Structured Data Synthesis
作者: Sonia Cromp, Satya Sai Srinath Namburi GNVV, Mohammed Alkhudhayri, Catherine Cao, Samuel Guo, Nicholas Roberts, Frederic Sala
分类: cs.LG, cs.CL
发布日期: 2025-03-04 (更新: 2026-01-02)
备注: 21 pages, 8 figures. Appearing in TMLR 2026
💡 一句话要点
Tabby:一种用于表格和结构化数据合成的语言模型架构
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格数据合成 结构化数据 语言模型 Transformer 门控混合专家模型
📋 核心要点
- 现有方法在表格数据合成方面关注较少,导致合成数据质量与真实数据存在差距,限制了其应用。
- Tabby通过后训练修改Transformer架构,利用门控混合专家模型和列特定参数集来表示表格数据的列间差异。
- 实验结果表明,Tabby在表格和嵌套JSON数据合成方面,数据质量接近或等于真实数据,相比现有方法提升显著。
📝 摘要(中文)
近年来,大型语言模型(LLMs)的进步极大地提高了合成文本数据的质量,但表格数据的合成相对较少受到关注。我们通过Tabby解决了这种差异,Tabby是对标准Transformer语言模型架构的一种简单但强大的后训练修改,使其能够用于表格数据集的合成。Tabby通过使用门控混合专家模型(Gated Mixture-of-Experts)以及列特定的参数集来实现跨列差异的表示。经验表明,Tabby产生的数据质量接近或等于真实数据。通过将我们新颖的LLM表格训练技术Plain与Tabby配对,我们观察到质量比以前的方法提高了高达44%。我们还表明,Tabby不仅限于表格,还可以扩展到更通用的结构化数据,在嵌套JSON数据集上也达到了与真实数据相当的水平。
🔬 方法详解
问题定义:论文旨在解决表格和结构化数据合成质量不高的问题。现有方法在处理表格数据时,无法有效捕捉列之间的差异性,导致合成的数据质量与真实数据存在差距,限制了其在数据增强、隐私保护等领域的应用。
核心思路:论文的核心思路是通过修改Transformer架构,使其能够更好地建模表格数据的列间关系。具体来说,引入了门控混合专家模型(Gated Mixture-of-Experts),并为每一列设置特定的参数集,从而实现对列间差异的有效表示。
技术框架:Tabby的整体架构基于标准的Transformer语言模型。在Transformer的基础上,针对表格数据的特点进行了修改。主要包括:1) 使用门控混合专家模型(Gated Mixture-of-Experts)来建模列间关系;2) 为每一列设置独立的参数集,以捕捉列的特定属性。训练过程采用Plain训练技术,旨在简化训练流程并提升模型性能。
关键创新:Tabby的关键创新在于其针对表格数据特点的架构设计。通过引入门控混合专家模型和列特定参数集,Tabby能够更有效地捕捉列间关系,从而提高合成数据的质量。与现有方法相比,Tabby能够更好地处理表格数据的异构性和复杂性。
关键设计:Tabby的关键设计包括:1) 门控混合专家模型的具体实现方式,包括专家数量、门控机制等;2) 列特定参数集的初始化和更新策略;3) Plain训练技术的具体细节,包括损失函数、优化算法等。这些设计细节对Tabby的性能至关重要,需要在实验中进行仔细调整和优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Tabby在表格数据合成方面,数据质量接近或等于真实数据,相比现有方法提升显著,最高可达44%。此外,Tabby还成功应用于嵌套JSON数据集的合成,并达到了与真实数据相当的水平。这些结果表明,Tabby是一种有效且通用的结构化数据合成方法。
🎯 应用场景
Tabby在数据增强、隐私保护、数据共享等领域具有广泛的应用前景。它可以用于生成高质量的合成表格数据,从而解决数据稀缺或隐私敏感的问题。例如,在医疗领域,可以使用Tabby生成合成的患者数据,用于训练机器学习模型,而无需暴露真实的患者信息。此外,Tabby还可以用于生成各种结构化数据,例如JSON数据,从而扩展其应用范围。
📄 摘要(原文)
While advances in large language models (LLMs) have greatly improved the quality of synthetic text data in recent years, synthesizing tabular data has received relatively less attention. We address this disparity with Tabby, a simple but powerful post-training modification to the standard Transformer language model architecture, enabling its use for tabular dataset synthesis. Tabby enables the representation of differences across columns using Gated Mixture-of-Experts, with column-specific sets of parameters. Empirically, Tabby results in data quality near or equal to that of real data. By pairing our novel LLM table training technique, Plain, with Tabby, we observe up to a 44% improvement in quality over previous methods. We also show that Tabby extends beyond tables to more general structured data, reaching parity with real data on a nested JSON dataset as well.