Not All Features Deserve Attention: Graph-Guided Dependency Learning for Tabular Data Generation with Language Models

📄 arXiv: 2507.18504v2 📥 PDF

作者: Zheyu Zhang, Shuo Yang, Bardh Prenkaj, Gjergji Kasneci

分类: cs.CL, cs.LG

发布日期: 2025-07-24 (更新: 2025-09-08)

备注: Accepted to EMNLP 2025 (Findings)


💡 一句话要点

提出GraDe,利用图引导依赖学习提升语言模型在表格数据生成中的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表格数据生成 语言模型 图神经网络 依赖学习 注意力机制

📋 核心要点

  1. 现有LLM在表格数据生成中,自注意力机制易分散到所有特征对,忽略了关键的稀疏依赖关系。
  2. GraDe通过图引导依赖学习,将稀疏依赖图显式集成到LLM的注意力机制中,关注关键特征交互。
  3. 实验表明,GraDe在复杂数据集上优于现有LLM方法高达12%,并在合成数据质量上达到SOTA水平。

📝 摘要(中文)

大型语言模型(LLM)在表格数据生成方面展现出强大的潜力,它们通过建模文本化的特征-值对来实现。然而,表格数据本身具有稀疏的特征级依赖关系,其中许多特征交互在结构上并不重要。这造成了一个根本性的不匹配,因为LLM的自注意力机制不可避免地将注意力分散到所有特征对上,从而削弱了对关键关系的关注,尤其是在具有复杂依赖关系或语义模糊特征的数据集中。为了解决这个局限性,我们提出了一种名为GraDe(图引导依赖学习)的新方法,该方法将稀疏依赖图显式地集成到LLM的注意力机制中。GraDe采用了一个轻量级的动态图学习模块,该模块由外部提取的功能依赖关系引导,优先考虑关键的特征交互,同时抑制不相关的特征交互。在各种真实世界数据集上的实验表明,GraDe在复杂数据集上的性能优于现有的基于LLM的方法,最高可达12%,同时在合成数据质量方面取得了与最先进方法相媲美的结果。我们的方法侵入性极小但效果显著,为使用LLM进行结构感知的表格数据建模提供了一个实用的解决方案。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在表格数据生成中,由于其自注意力机制的全局性,无法有效捕捉表格数据中固有的稀疏特征依赖关系的问题。现有方法平等地关注所有特征对,导致对关键特征交互的关注度被稀释,尤其是在复杂或语义模糊的数据集中,这会降低生成数据的质量。

核心思路:论文的核心思路是利用图结构来显式地建模表格数据中特征之间的依赖关系,并利用这些依赖关系来引导LLM的注意力机制。通过优先关注重要的特征交互,抑制不相关的交互,从而提高LLM生成表格数据的质量和效率。

技术框架:GraDe (Graph-Guided Dependency Learning) 的整体框架包含以下几个主要模块:1) 外部依赖提取:利用外部方法(如功能依赖发现算法)提取表格数据中特征之间的依赖关系。2) 动态图学习模块:基于提取的依赖关系,构建一个轻量级的动态图学习模块,用于学习和更新特征之间的依赖关系图。3) 图引导注意力机制:将学习到的依赖关系图集成到LLM的注意力机制中,引导LLM优先关注重要的特征交互。4) 表格数据生成:利用修改后的LLM生成表格数据。

关键创新:GraDe的关键创新在于将外部提取的依赖关系与LLM的注意力机制相结合,通过图结构显式地建模特征之间的依赖关系,并利用这些依赖关系来引导LLM的注意力分配。这与现有方法平等对待所有特征对的方式形成了鲜明对比,使得LLM能够更有效地捕捉表格数据中的结构信息。

关键设计:GraDe的关键设计包括:1) 轻量级动态图学习模块:该模块的设计目标是在不引入过多计算负担的前提下,有效地学习和更新特征之间的依赖关系。具体实现可能包括使用简单的图神经网络或注意力机制来学习节点(特征)之间的连接权重。2) 图引导注意力机制:该机制的设计目标是将学习到的依赖关系图无缝地集成到LLM的注意力机制中。具体实现可能包括使用依赖关系图中的连接权重来调整注意力权重,或者使用依赖关系图来mask掉不相关的特征交互。3) 损失函数:除了标准的语言模型损失函数外,还可以引入额外的损失函数来鼓励图学习模块学习到更准确的依赖关系图。例如,可以使用对比学习损失来区分相关的特征对和不相关的特征对。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,GraDe在多个真实世界数据集上显著优于现有的基于LLM的表格数据生成方法,在复杂数据集上提升高达12%。同时,GraDe在合成数据质量方面也取得了与最先进方法相媲美的结果。这些结果验证了GraDe在捕捉表格数据中稀疏依赖关系方面的有效性。

🎯 应用场景

该研究成果可应用于各种需要高质量表格数据生成的领域,例如:金融风险评估、医疗诊断预测、客户行为分析等。通过提升生成数据的质量,可以改善下游任务的性能,并为数据增强和隐私保护提供新的方法。未来,该方法可以扩展到处理更复杂的表格数据结构,例如包含层次关系或时间序列信息的表格数据。

📄 摘要(原文)

Large Language Models (LLMs) have shown strong potential for tabular data generation by modeling textualized feature-value pairs. However, tabular data inherently exhibits sparse feature-level dependencies, where many feature interactions are structurally insignificant. This creates a fundamental mismatch as LLMs' self-attention mechanism inevitably distributes focus across all pairs, diluting attention on critical relationships, particularly in datasets with complex dependencies or semantically ambiguous features. To address this limitation, we propose GraDe (Graph-Guided Dependency Learning), a novel method that explicitly integrates sparse dependency graphs into LLMs' attention mechanism. GraDe employs a lightweight dynamic graph learning module guided by externally extracted functional dependencies, prioritizing key feature interactions while suppressing irrelevant ones. Our experiments across diverse real-world datasets demonstrate that GraDe outperforms existing LLM-based approaches by up to 12% on complex datasets while achieving competitive results with state-of-the-art approaches in synthetic data quality. Our method is minimally intrusive yet effective, offering a practical solution for structure-aware tabular data modeling with LLMs.