DSBench: How Far Are Data Science Agents from Becoming Data Science Experts?

📄 arXiv: 2409.07703v3 📥 PDF

作者: Liqiang Jing, Zhehui Huang, Xiaoyang Wang, Wenlin Yao, Wenhao Yu, Kaixin Ma, Hongming Zhang, Xinya Du, Dong Yu

分类: cs.AI, cs.CL

发布日期: 2024-09-12 (更新: 2025-04-11)


💡 一句话要点

DSBench:构建更贴近现实的数据科学基准,评估数据科学智能体的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据科学 基准测试 大型语言模型 数据分析 数据建模 智能体 Kaggle 多模态

📋 核心要点

  1. 现有数据科学基准过于简化,无法真实反映实际数据科学任务的复杂性,限制了对智能体能力的有效评估。
  2. DSBench旨在通过引入包含长上下文、多模态数据、多表结构和端到端建模的真实任务,来弥合现有基准与实际应用之间的差距。
  3. 实验结果表明,现有LLM、LVLM和智能体在DSBench上表现不佳,突显了开发更智能、更自主的数据科学智能体的必要性。

📝 摘要(中文)

大型语言模型(LLMs)和大型视觉语言模型(LVLMs)展现了令人印象深刻的语言/视觉推理能力,引发了构建面向特定应用(如购物助手或AI软件工程师)的智能体的趋势。 近期,许多数据科学基准被提出,以研究它们在数据科学领域的性能。 然而,由于其简化的设置,现有的数据科学基准与真实世界的数据科学应用相比仍然不足。 为了弥合这一差距,我们引入了DSBench,这是一个综合基准,旨在评估具有现实任务的数据科学智能体。 该基准包括来自Eloquence和Kaggle竞赛的466个数据分析任务和74个数据建模任务。 DSBench通过包含长上下文、多模态任务背景、大型数据文件和多表结构的推理以及执行端到端数据建模任务,提供了一个真实的设置。 我们对最先进的LLM、LVLM和智能体的评估表明,它们在大多数任务中都表现不佳,最好的智能体仅解决了34.12%的数据分析任务,并实现了34.74%的相对性能差距(RPG)。 这些发现强调了进一步开发更实用、智能和自主的数据科学智能体的必要性。

🔬 方法详解

问题定义:现有数据科学基准通常采用简化的设置,例如小规模数据集、单一数据源和简单的分析任务。这使得它们无法充分评估数据科学智能体在处理真实世界复杂数据科学问题时的能力,例如处理长上下文、多模态数据、多表结构以及执行端到端数据建模任务。因此,需要一个更具挑战性和现实性的基准来推动数据科学智能体的研究和发展。

核心思路:DSBench的核心思路是构建一个包含来自真实世界数据科学竞赛(如Eloquence和Kaggle)的数据分析和数据建模任务的综合基准。通过引入这些真实世界的任务,DSBench能够提供一个更具挑战性和现实性的环境,从而更准确地评估数据科学智能体的能力。这种设计使得DSBench能够更好地反映实际数据科学工作流程中遇到的各种复杂性和挑战。

技术框架:DSBench包含两个主要部分:数据分析任务和数据建模任务。数据分析任务侧重于评估智能体从数据中提取有意义信息的能力,而数据建模任务则侧重于评估智能体构建预测模型的能力。整个流程包括任务理解、数据预处理、特征工程、模型选择、模型训练、模型评估和结果解释等多个阶段。DSBench提供了一个统一的接口,允许研究人员轻松地评估各种数据科学智能体。

关键创新:DSBench的关键创新在于其真实性和全面性。它通过引入来自真实世界数据科学竞赛的任务,提供了一个比现有基准更具挑战性和现实性的环境。此外,DSBench还涵盖了数据分析和数据建模两个方面,从而能够更全面地评估数据科学智能体的能力。这种全面性使得DSBench能够更好地反映实际数据科学工作流程中遇到的各种复杂性和挑战。

关键设计:DSBench的关键设计包括任务选择、数据预处理和评估指标。任务选择方面,DSBench选择了来自Eloquence和Kaggle竞赛的具有代表性的数据分析和数据建模任务。数据预处理方面,DSBench提供了一系列预处理工具,以帮助智能体处理各种数据格式和数据质量问题。评估指标方面,DSBench采用了多种评估指标,包括准确率、召回率、F1值和相对性能差距(RPG),以全面评估智能体的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有最先进的LLM、LVLM和智能体在DSBench上表现不佳,最好的智能体仅解决了34.12%的数据分析任务,并实现了34.74%的相对性能差距(RPG)。这表明现有数据科学智能体在处理真实世界复杂数据科学问题时仍然存在很大的提升空间,需要进一步的研究和开发。

🎯 应用场景

DSBench可用于评估和比较不同数据科学智能体的性能,推动数据科学智能体的研究和发展。它还可以用于指导数据科学智能体的设计和优化,使其能够更好地解决实际数据科学问题。潜在的应用领域包括金融、医疗、电商等,可以帮助企业提高数据分析和决策效率,降低成本,创造更大的商业价值。

📄 摘要(原文)

Large Language Models (LLMs) and Large Vision-Language Models (LVLMs) have demonstrated impressive language/vision reasoning abilities, igniting the recent trend of building agents for targeted applications such as shopping assistants or AI software engineers. Recently, many data science benchmarks have been proposed to investigate their performance in the data science domain. However, existing data science benchmarks still fall short when compared to real-world data science applications due to their simplified settings. To bridge this gap, we introduce DSBench, a comprehensive benchmark designed to evaluate data science agents with realistic tasks. This benchmark includes 466 data analysis tasks and 74 data modeling tasks, sourced from Eloquence and Kaggle competitions. DSBench offers a realistic setting by encompassing long contexts, multimodal task backgrounds, reasoning with large data files and multi-table structures, and performing end-to-end data modeling tasks. Our evaluation of state-of-the-art LLMs, LVLMs, and agents shows that they struggle with most tasks, with the best agent solving only 34.12% of data analysis tasks and achieving a 34.74% Relative Performance Gap (RPG). These findings underscore the need for further advancements in developing more practical, intelligent, and autonomous data science agents.