Quality Assessment of Tabular Data using Large Language Models and Code Generation

📄 arXiv: 2509.10572v2 📥 PDF

作者: Ashlesha Akella, Akshar Kaul, Krishnasuri Narayanam, Sameep Mehta

分类: cs.SE, cs.AI, cs.DB

发布日期: 2025-09-11 (更新: 2025-09-21)

备注: under review


💡 一句话要点

提出基于大语言模型和代码生成的表格数据质量评估框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表格数据质量评估 大语言模型 代码生成 检索增强生成 数据清洗 自动化验证

📋 核心要点

  1. 现有基于规则的表格数据质量验证方法效率低、需人工干预且计算成本高昂。
  2. 利用大语言模型生成质量规则和代码验证器,结合统计异常检测,实现自动化数据质量评估。
  3. 通过检索增强生成(RAG)和保障措施,提升规则和代码的准确性和一致性,并在基准数据集上验证有效性。

📝 摘要(中文)

可靠的数据质量对于表格数据集的下游分析至关重要,但基于规则的验证方法通常面临效率低下、人工干预和高计算成本等问题。本文提出了一种三阶段框架,该框架结合了统计异常值检测与由大语言模型(LLM)驱动的规则和代码生成。在通过传统聚类过滤数据样本后,我们迭代地提示LLM生成语义上有效的质量规则,并通过代码生成LLM合成其可执行的验证器。为了生成可靠的质量规则,我们利用检索增强生成(RAG)技术,通过利用外部知识源和特定领域的少量样本示例来辅助LLM。强大的保障措施确保了规则和代码片段的准确性和一致性。在基准数据集上的大量评估证实了我们方法的有效性。

🔬 方法详解

问题定义:论文旨在解决表格数据质量评估中,传统规则验证方法效率低、成本高的问题。现有方法依赖人工定义规则,难以覆盖所有潜在的数据质量问题,且缺乏自动化和可扩展性。

核心思路:论文的核心思路是利用大语言模型(LLM)的语义理解和代码生成能力,自动生成数据质量规则和验证代码。通过结合统计异常检测,减少LLM需要处理的数据量,提高效率和准确性。

技术框架:该框架包含三个阶段:1) 统计异常值检测:使用聚类等方法过滤掉明显异常的数据样本,减少后续LLM处理的数据量。2) LLM驱动的规则生成:迭代地提示LLM生成语义上有效的质量规则,并使用检索增强生成(RAG)技术,结合外部知识和少量样本示例,提高规则的可靠性。3) 代码生成:使用代码生成LLM将生成的规则转化为可执行的验证代码。

关键创新:该方法最重要的创新点在于利用LLM自动生成数据质量规则和验证代码,从而减少了人工干预,提高了效率和可扩展性。此外,结合统计异常检测和检索增强生成(RAG)技术,进一步提高了规则的准确性和可靠性。

关键设计:在规则生成阶段,使用迭代提示策略,逐步引导LLM生成更准确的规则。检索增强生成(RAG)使用外部知识库和领域相关的少量样本,为LLM提供上下文信息。此外,还设计了保障措施,用于验证规则和代码的准确性和一致性,例如使用单元测试验证代码的正确性。

📊 实验亮点

论文在基准数据集上进行了广泛的评估,验证了该方法的有效性。实验结果表明,该方法能够自动生成高质量的数据质量规则和验证代码,并显著提高数据质量评估的效率和准确性。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于各种需要高质量表格数据的领域,如金融、医疗、电商等。通过自动化数据质量评估,可以降低数据清洗成本,提高数据分析的准确性和可靠性,从而支持更明智的决策。未来,该方法可以扩展到处理更复杂的数据类型和质量问题。

📄 摘要(原文)

Reliable data quality is crucial for downstream analysis of tabular datasets, yet rule-based validation often struggles with inefficiency, human intervention, and high computational costs. We present a three-stage framework that combines statistical inliner detection with LLM-driven rule and code generation. After filtering data samples through traditional clustering, we iteratively prompt LLMs to produce semantically valid quality rules and synthesize their executable validators through code-generating LLMs. To generate reliable quality rules, we aid LLMs with retrieval-augmented generation (RAG) by leveraging external knowledge sources and domain-specific few-shot examples. Robust guardrails ensure the accuracy and consistency of both rules and code snippets. Extensive evaluations on benchmark datasets confirm the effectiveness of our approach.