Quality Assessment of Tabular Data using Large Language Models and Code Generation

作者: Ashlesha Akella, Akshar Kaul, Krishnasuri Narayanam, Sameep Mehta

分类: cs.SE, cs.AI, cs.DB

发布日期: 2025-09-11 (更新: 2025-09-21)

备注: under review

💡 一句话要点

提出基于大语言模型和代码生成的表格数据质量评估框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 表格数据质量评估 大语言模型 代码生成 检索增强生成 数据清洗 自动化验证

📋 核心要点

现有基于规则的表格数据质量验证方法效率低、需人工干预且计算成本高昂。
利用大语言模型生成质量规则和代码验证器，结合统计异常检测，实现自动化数据质量评估。
通过检索增强生成（RAG）和保障措施，提升规则和代码的准确性和一致性，并在基准数据集上验证有效性。

📝 摘要（中文）

可靠的数据质量对于表格数据集的下游分析至关重要，但基于规则的验证方法通常面临效率低下、人工干预和高计算成本等问题。本文提出了一种三阶段框架，该框架结合了统计异常值检测与由大语言模型（LLM）驱动的规则和代码生成。在通过传统聚类过滤数据样本后，我们迭代地提示LLM生成语义上有效的质量规则，并通过代码生成LLM合成其可执行的验证器。为了生成可靠的质量规则，我们利用检索增强生成（RAG）技术，通过利用外部知识源和特定领域的少量样本示例来辅助LLM。强大的保障措施确保了规则和代码片段的准确性和一致性。在基准数据集上的大量评估证实了我们方法的有效性。

🔬 方法详解

问题定义：论文旨在解决表格数据质量评估中，传统规则验证方法效率低、成本高的问题。现有方法依赖人工定义规则，难以覆盖所有潜在的数据质量问题，且缺乏自动化和可扩展性。

核心思路：论文的核心思路是利用大语言模型（LLM）的语义理解和代码生成能力，自动生成数据质量规则和验证代码。通过结合统计异常检测，减少LLM需要处理的数据量，提高效率和准确性。

技术框架：该框架包含三个阶段：1) 统计异常值检测：使用聚类等方法过滤掉明显异常的数据样本，减少后续LLM处理的数据量。2) LLM驱动的规则生成：迭代地提示LLM生成语义上有效的质量规则，并使用检索增强生成（RAG）技术，结合外部知识和少量样本示例，提高规则的可靠性。3) 代码生成：使用代码生成LLM将生成的规则转化为可执行的验证代码。

关键创新：该方法最重要的创新点在于利用LLM自动生成数据质量规则和验证代码，从而减少了人工干预，提高了效率和可扩展性。此外，结合统计异常检测和检索增强生成（RAG）技术，进一步提高了规则的准确性和可靠性。

关键设计：在规则生成阶段，使用迭代提示策略，逐步引导LLM生成更准确的规则。检索增强生成（RAG）使用外部知识库和领域相关的少量样本，为LLM提供上下文信息。此外，还设计了保障措施，用于验证规则和代码的准确性和一致性，例如使用单元测试验证代码的正确性。

📊 实验亮点

论文在基准数据集上进行了广泛的评估，验证了该方法的有效性。实验结果表明，该方法能够自动生成高质量的数据质量规则和验证代码，并显著提高数据质量评估的效率和准确性。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于各种需要高质量表格数据的领域，如金融、医疗、电商等。通过自动化数据质量评估，可以降低数据清洗成本，提高数据分析的准确性和可靠性，从而支持更明智的决策。未来，该方法可以扩展到处理更复杂的数据类型和质量问题。

📄 摘要（原文）

Reliable data quality is crucial for downstream analysis of tabular datasets, yet rule-based validation often struggles with inefficiency, human intervention, and high computational costs. We present a three-stage framework that combines statistical inliner detection with LLM-driven rule and code generation. After filtering data samples through traditional clustering, we iteratively prompt LLMs to produce semantically valid quality rules and synthesize their executable validators through code-generating LLMs. To generate reliable quality rules, we aid LLMs with retrieval-augmented generation (RAG) by leveraging external knowledge sources and domain-specific few-shot examples. Robust guardrails ensure the accuracy and consistency of both rules and code snippets. Extensive evaluations on benchmark datasets confirm the effectiveness of our approach.

Quality Assessment of Tabular Data using Large Language Models and Code Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册