Automatic End-to-End Data Integration using Large Language Models
作者: Aaron Steiner, Christian Bizer
分类: cs.CL
发布日期: 2026-03-11
备注: 8 pages, 9 tables. Accepted at the Beyond SQL Workshop at ICDE 2026
💡 一句话要点
提出基于大型语言模型的端到端自动数据集成方案,降低人工成本。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数据集成 大型语言模型 自动化 GPT-5.2 模式映射 实体匹配 数据融合
📋 核心要点
- 传统数据集成流程依赖大量人工,配置复杂且成本高昂,缺乏自动化。
- 利用GPT-5.2等大型语言模型自动生成数据集成所需的各种组件,实现端到端自动化。
- 实验表明,LLM驱动的流程在多个数据集上可达到或超过人工设计的性能,且成本显著降低。
📝 摘要(中文)
数据集成流程的设计通常需要数据工程师投入大量的人工,以配置流程组件和标注训练数据。虽然大型语言模型(LLM)在处理集成过程中的各个步骤已显示出潜力,但它们在端到端数据集成流程中取代所有人工输入的潜力尚未得到研究。为了探索这种潜力,我们提出了一种自动数据集成流程,该流程使用GPT-5.2生成所有必要的组件,以使流程适应特定的用例。这些组件包括模式映射、用于数据规范化的值映射、用于实体匹配的训练数据以及用于在数据融合中选择冲突解决启发式的验证数据。我们将这种基于LLM的流程的性能与人工设计的流程的性能进行了比较,使用了三个案例研究,涉及视频游戏、音乐和公司相关数据的集成。实验表明,基于LLM的流程能够产生类似的结果,在某些任务中甚至优于人工设计的流程。端到端来看,人工和LLM流程产生了大小和密度相当的集成数据集。使用LLM配置流程的成本约为每个案例研究10美元,这仅占人工数据工程师执行相同任务成本的一小部分。
🔬 方法详解
问题定义:论文旨在解决数据集成过程中人工参与过多、成本高昂的问题。现有方法需要数据工程师手动配置管道组件、标注训练数据,耗时费力且容易出错。因此,如何实现端到端的数据集成自动化,降低人工成本,提高效率是本文要解决的核心问题。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大生成能力,自动生成数据集成流程所需的各种组件,包括模式映射、值映射、实体匹配训练数据和冲突解决策略验证数据。通过LLM的自动配置,减少甚至消除人工干预,实现端到端的数据集成自动化。
技术框架:该自动数据集成流程主要包含以下几个阶段:1) 使用LLM生成模式映射,将不同数据源的模式进行对齐。2) 使用LLM生成值映射,对数据进行规范化处理,例如统一日期格式。3) 使用LLM生成实体匹配的训练数据,用于训练实体匹配模型。4) 使用LLM生成冲突解决策略的验证数据,用于选择最佳的冲突解决启发式方法。5) 最后,将上述生成的组件集成到数据集成管道中,实现自动化的数据集成。
关键创新:该论文最重要的创新点在于提出了一个完全基于LLM的端到端数据集成框架,无需人工干预即可完成整个数据集成流程。与以往LLM仅用于数据集成流程的个别步骤不同,该方法实现了全流程的自动化。
关键设计:论文使用GPT-5.2作为核心的LLM,通过精心设计的prompt工程,引导LLM生成高质量的模式映射、值映射、训练数据和验证数据。具体的prompt设计细节未知,但可以推测其prompt包含了数据源的schema信息、目标schema信息以及一些示例数据,以帮助LLM更好地理解数据集成任务。
📊 实验亮点
实验结果表明,基于LLM的自动数据集成流程在视频游戏、音乐和公司数据集成等多个案例中,能够达到甚至超过人工设计的流程的性能。在端到端集成效果上,LLM流程生成的数据集与人工流程生成的数据集在大小和密度上相当。更重要的是,LLM流程的成本仅为每个案例研究约10美元,远低于人工成本。
🎯 应用场景
该研究成果可广泛应用于企业数据集成、知识图谱构建、数据仓库建设等领域。通过降低数据集成的人工成本,可以加速企业数字化转型,提高数据利用效率,并为人工智能应用提供高质量的数据基础。未来,该方法有望扩展到更复杂的数据集成场景,例如跨领域的数据融合和异构数据的集成。
📄 摘要(原文)
Designing data integration pipelines typically requires substantial manual effort from data engineers to configure pipeline components and label training data. While LLMs have shown promise in handling individual steps of the integration process, their potential to replace all human input across end-to-end data integration pipelines has not been investigated. As a step toward exploring this potential, we present an automatic data integration pipeline that uses GPT-5.2 to generate all artifacts required to adapt the pipeline to specific use cases. These artifacts are schema mappings, value mappings for data normalization, training data for entity matching, and validation data for selecting conflict resolution heuristics in data fusion. We compare the performance of this LLM-based pipeline to the performance of human-designed pipelines along three case studies requiring the integration of video game, music, and company related data. Our experiments show that the LLM-based pipeline is able to produce similar results, for some tasks even better results, as the human-designed pipelines. End-to-end, the human and the LLM pipelines produce integrated datasets of comparable size and density. Having the LLM configure the pipelines costs approximately \$10 per case study, which represents only a small fraction of the cost of having human data engineers perform the same tasks.