ELT-Bench: An End-to-End Benchmark for Evaluating AI Agents on ELT Pipelines

📄 arXiv: 2504.04808v2 📥 PDF

作者: Tengjun Jin, Yuxuan Zhu, Daniel Kang

分类: cs.DB, cs.AI

发布日期: 2025-04-07 (更新: 2025-04-14)

备注: 14 pages, 18 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出ELT-Bench,用于评估AI Agent在端到端ELT Pipeline构建中的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: ELT Pipeline AI Agent Benchmark 数据工程 自动化

📋 核心要点

  1. 当前数据工程Benchmark侧重于孤立任务,缺乏对端到端ELT Pipeline生成中AI Agent能力的全面评估。
  2. ELT-Bench旨在通过模拟真实场景,评估AI Agent在复杂数据工程工作流中构建完整ELT Pipeline的能力。
  3. 实验结果表明,现有AI Agent在ELT-Bench上表现不佳,突显了该Benchmark的挑战性以及对更先进Agent的需求。

📝 摘要(中文)

随着云数据仓库的广泛应用,从业者越来越多地转向提取-加载-转换(ELT)Pipeline。然而,设计这些Pipeline通常需要大量的人工工作以确保正确性。最近基于AI的方法在数据任务(如文本到SQL)中表现出强大的能力,为减轻ELT Pipeline开发中的人工工作提供了机会。不幸的是,当前数据工程领域的Benchmark仅评估孤立的任务,例如使用数据工具和编写数据转换查询,这在评估用于生成端到端ELT Pipeline的AI Agent方面存在显著差距。为了填补这一空白,我们引入了ELT-Bench,这是一个旨在评估AI Agent构建ELT Pipeline能力的端到端Benchmark。ELT-Bench包含100个Pipeline,包括来自各个领域的835个源表和203个数据模型。通过模拟涉及集成各种数据源和使用流行数据工具的真实场景,ELT-Bench评估了AI Agent处理复杂数据工程工作流程的能力。AI Agent必须与数据库和数据工具交互,编写代码和SQL查询,并编排每个Pipeline阶段。我们使用六个流行的大型语言模型(LLM)在ELT-Bench上评估了两个具有代表性的代码Agent框架,Spider-Agent和SWE-Agent。性能最高的Agent,即具有扩展思维的Spider-Agent Claude-3.7-Sonnet,仅正确生成了3.9%的数据模型,每个Pipeline的平均成本为4.30美元,需要89.3个步骤。我们的实验结果表明了ELT-Bench的挑战性,并强调了需要更先进的AI Agent来减少ELT工作流程中的人工工作。我们的代码和数据可在https://github.com/uiuc-kang-lab/ELT-Bench获取。

🔬 方法详解

问题定义:论文旨在解决AI Agent在端到端ELT Pipeline自动生成方面的能力评估问题。现有数据工程Benchmark主要关注孤立任务,例如数据工具的使用和数据转换查询的编写,缺乏对AI Agent构建完整ELT Pipeline能力的综合评估。这使得难以衡量AI在自动化复杂数据工程工作流方面的潜力,阻碍了相关技术的发展。

核心思路:论文的核心思路是构建一个端到端的Benchmark,即ELT-Bench,用于全面评估AI Agent在构建ELT Pipeline方面的能力。该Benchmark包含多个真实场景下的ELT Pipeline,涵盖各种数据源和数据工具,要求AI Agent能够完成从数据提取、加载到转换的整个流程。通过模拟真实场景,ELT-Bench能够更准确地反映AI Agent在实际应用中的性能。

技术框架:ELT-Bench的技术框架主要包括以下几个部分:一是数据集,包含100个Pipeline,835个源表和203个数据模型,覆盖多个领域;二是评估环境,模拟真实的数据工程环境,包括数据库和各种数据工具;三是评估指标,用于衡量AI Agent生成的ELT Pipeline的正确性、效率和成本。AI Agent需要与数据库和数据工具交互,编写代码和SQL查询,并编排每个Pipeline阶段。

关键创新:ELT-Bench的关键创新在于其端到端的评估方式。与以往只关注孤立任务的Benchmark不同,ELT-Bench要求AI Agent完成整个ELT Pipeline的构建,从而更全面地评估其能力。此外,ELT-Bench还模拟了真实的数据工程环境,使得评估结果更具参考价值。

关键设计:ELT-Bench的关键设计包括数据集的多样性,涵盖了不同领域和不同类型的数据;评估环境的真实性,尽可能模拟真实的数据工程环境;以及评估指标的全面性,不仅考虑了Pipeline的正确性,还考虑了效率和成本。论文还详细描述了如何使用ELT-Bench评估不同的AI Agent,并给出了评估结果的分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在ELT-Bench上,表现最佳的Agent(Spider-Agent Claude-3.7-Sonnet with extended thinking)仅能正确生成3.9%的数据模型,平均每个Pipeline的成本为4.30美元,需要89.3个步骤。这些结果表明,现有AI Agent在处理复杂的端到端ELT Pipeline构建任务时仍面临巨大挑战,需要进一步的研究和改进。

🎯 应用场景

ELT-Bench可用于评估和比较不同的AI Agent在自动化数据工程任务方面的能力,推动AI在数据集成、数据清洗、数据转换等领域的应用。通过降低ELT Pipeline开发的人工成本,可以加速数据驱动的决策过程,提高企业的数据利用效率,并促进数据科学的普及。

📄 摘要(原文)

Practitioners are increasingly turning to Extract-Load-Transform (ELT) pipelines with the widespread adoption of cloud data warehouses. However, designing these pipelines often involves significant manual work to ensure correctness. Recent advances in AI-based methods, which have shown strong capabilities in data tasks, such as text-to-SQL, present an opportunity to alleviate manual efforts in developing ELT pipelines. Unfortunately, current benchmarks in data engineering only evaluate isolated tasks, such as using data tools and writing data transformation queries, leaving a significant gap in evaluating AI agents for generating end-to-end ELT pipelines. To fill this gap, we introduce ELT-Bench, an end-to-end benchmark designed to assess the capabilities of AI agents to build ELT pipelines. ELT-Bench consists of 100 pipelines, including 835 source tables and 203 data models across various domains. By simulating realistic scenarios involving the integration of diverse data sources and the use of popular data tools, ELT-Bench evaluates AI agents' abilities in handling complex data engineering workflows. AI agents must interact with databases and data tools, write code and SQL queries, and orchestrate every pipeline stage. We evaluate two representative code agent frameworks, Spider-Agent and SWE-Agent, using six popular Large Language Models (LLMs) on ELT-Bench. The highest-performing agent, Spider-Agent Claude-3.7-Sonnet with extended thinking, correctly generates only 3.9% of data models, with an average cost of $4.30 and 89.3 steps per pipeline. Our experimental results demonstrate the challenges of ELT-Bench and highlight the need for a more advanced AI agent to reduce manual effort in ELT workflows. Our code and data are available at https://github.com/uiuc-kang-lab/ELT-Bench.