DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models
作者: Yiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu
分类: cs.CL, cs.AI
发布日期: 2024-10-09 (更新: 2024-10-11)
备注: EMNLP 2024
💡 一句话要点
提出DA-Code基准,用于评估LLM在Agent数据科学代码生成任务中的能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 代码生成 大型语言模型 数据科学 Agent 基准测试
📋 核心要点
- 现有代码生成任务难以评估LLM在复杂数据科学场景下的Agent能力,缺乏真实数据和复杂编程语言的挑战。
- DA-Code基准通过构建真实数据驱动的、需要复杂数据科学编程的任务,来评估LLM的Agent能力。
- 实验表明,即使是最先进的LLM在DA-Code上的准确率仅为30.5%,证明了该基准的挑战性和未来提升空间。
📝 摘要(中文)
本文介绍DA-Code,一个专门设计的代码生成基准,用于评估大型语言模型(LLMs)在基于Agent的数据科学任务中的能力。该基准包含三个核心要素:首先,DA-Code中的任务本身就具有挑战性,这使得它们与传统的代码生成任务不同,并且需要LLM具备在数据理解和任务规划方面的高级编码技能。其次,DA-Code中的示例都基于真实且多样化的数据,涵盖了广泛的复杂数据整理和分析任务。第三,为了解决这些任务,模型必须利用复杂的数据科学编程语言来执行复杂的数据处理并得出答案。我们在一个可控和可执行的环境中设置了该基准,该环境与真实世界的数据分析场景对齐并且可扩展。注释者精心设计了评估套件,以确保评估的准确性和鲁棒性。我们开发了DA-Agent基线。实验表明,尽管该基线比其他现有框架表现更好,但使用当前最佳的LLM仅能达到30.5%的准确率,这留有很大的改进空间。我们在https://da-code-bench.github.io上发布了我们的基准。
🔬 方法详解
问题定义:论文旨在解决如何有效评估大型语言模型(LLMs)在Agent数据科学任务中的代码生成能力的问题。现有代码生成基准通常无法充分测试LLMs在真实数据分析场景下的能力,缺乏对复杂数据处理和规划能力的要求,以及对复杂数据科学编程语言的运用。
核心思路:论文的核心思路是构建一个更具挑战性和真实性的代码生成基准,即DA-Code。该基准基于真实数据,涵盖复杂的数据整理和分析任务,并要求LLMs使用复杂的数据科学编程语言来解决问题。通过这种方式,可以更全面地评估LLMs在Agent数据科学任务中的能力。
技术框架:DA-Code基准包含以下主要组成部分: 1. 任务定义:定义一系列具有挑战性的数据科学任务,这些任务需要进行复杂的数据处理和分析。 2. 数据收集:收集真实且多样化的数据集,用于构建任务示例。 3. 评估套件:设计精确且鲁棒的评估指标,用于衡量LLMs在解决任务时的性能。 4. 基线模型:开发DA-Agent基线模型,作为评估LLMs性能的参考。
关键创新:DA-Code的关键创新在于其任务的真实性和复杂性,以及对LLMs在数据理解、任务规划和复杂数据科学编程语言运用方面的要求。与现有代码生成基准相比,DA-Code更贴近真实世界的数据分析场景,能够更全面地评估LLMs的Agent能力。
关键设计:DA-Code的关键设计包括: 1. 任务难度:任务设计需要保证一定的难度,能够区分不同LLMs的性能。 2. 数据多样性:数据需要涵盖不同的领域和类型,以保证基准的泛化能力。 3. 评估指标:评估指标需要能够准确反映LLMs在解决任务时的性能,例如准确率、代码质量等。 4. 可控环境:提供一个可控和可执行的环境,方便研究人员进行实验和评估。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使使用当前最佳的LLM,在DA-Code基准上的准确率仅为30.5%,远低于人类水平。DA-Agent基线模型虽然优于其他现有框架,但仍有很大的提升空间,这突显了DA-Code基准的挑战性和研究价值。
🎯 应用场景
DA-Code基准可用于评估和提升LLM在数据科学领域的应用能力,例如自动化数据分析、智能数据报告生成、以及辅助数据科学家进行更高效的数据探索和建模。该基准的发布将促进LLM在实际数据科学场景中的应用。
📄 摘要(原文)
We introduce DA-Code, a code generation benchmark specifically designed to assess LLMs on agent-based data science tasks. This benchmark features three core elements: First, the tasks within DA-Code are inherently challenging, setting them apart from traditional code generation tasks and demanding advanced coding skills in grounding and planning. Second, examples in DA-Code are all based on real and diverse data, covering a wide range of complex data wrangling and analytics tasks. Third, to solve the tasks, the models must utilize complex data science programming languages, to perform intricate data processing and derive the answers. We set up the benchmark in a controllable and executable environment that aligns with real-world data analysis scenarios and is scalable. The annotators meticulously design the evaluation suite to ensure the accuracy and robustness of the evaluation. We develop the DA-Agent baseline. Experiments show that although the baseline performs better than other existing frameworks, using the current best LLMs achieves only 30.5% accuracy, leaving ample room for improvement. We release our benchmark at https://da-code-bench.github.io.