DSBC : Data Science task Benchmarking with Context engineering

📄 arXiv: 2507.23336v2 📥 PDF

作者: Ram Mohan Rao Kadiyala, Siddhant Gupta, Jebish Purbey, Giulio Martini, Ali Shafique, Suman Debnath, Hamza Farooq

分类: cs.AI, cs.CL, cs.MA

发布日期: 2025-07-31 (更新: 2025-08-06)

备注: 32 pages


💡 一句话要点

DSBC:通过上下文工程对数据科学任务进行基准测试,评估LLM在实际应用中的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据科学Agent 基准测试 大型语言模型 上下文工程 性能评估

📋 核心要点

  1. 现有数据科学Agent缺乏系统性的基准测试,难以评估其在实际应用中的有效性和局限性。
  2. 论文通过构建DSBC基准测试,模拟真实用户交互,并结合上下文工程,全面评估数据科学Agent的性能。
  3. 实验结果揭示了不同LLM和方法在数据科学任务上的性能差异,为实际部署提供了重要参考。

📝 摘要(中文)

本文提出了一个全面的基准测试,旨在反映真实用户与数据科学Agent的交互情况,通过观察商业应用程序的使用情况进行评估。该基准测试评估了三个大型语言模型:Claude-4.0-Sonnet、Gemini-2.5-Flash和OpenAI-o4-Mini,采用了三种方法:零样本上下文工程、多步上下文工程以及使用SmolAgent。该基准测试涵盖了八个不同的数据科学任务类别,并探讨了模型对常见提示问题的敏感性,例如数据泄露和略微模糊的指令。此外,还研究了温度参数对每个模型和方法的总体和特定任务结果的影响。研究结果揭示了评估模型和方法之间存在的明显性能差异,突出了影响实际部署的关键因素。本文提出的基准数据集和评估框架旨在为未来研究更强大、更有效的数据科学Agent奠定基础。

🔬 方法详解

问题定义:论文旨在解决数据科学Agent缺乏有效基准测试的问题。现有方法难以准确评估Agent在真实场景下的性能,无法有效指导Agent的开发和部署。此外,现有方法对Agent在面对数据泄露、指令模糊等常见问题时的鲁棒性评估不足。

核心思路:论文的核心思路是构建一个更贴近实际应用场景的基准测试,通过模拟真实用户与数据科学Agent的交互,并结合上下文工程技术,全面评估Agent在不同数据科学任务上的性能。通过观察商业应用程序的使用情况,提取真实用户交互模式,确保基准测试的实用性和代表性。

技术框架:DSBC基准测试框架主要包含以下几个模块:1)数据科学任务定义模块:定义了八个不同的数据科学任务类别,涵盖了数据分析的各个方面。2)上下文工程模块:通过设计不同的上下文提示,模拟真实用户交互场景,包括零样本上下文、多步上下文等。3)模型评估模块:评估不同LLM(Claude-4.0-Sonnet、Gemini-2.5-Flash和OpenAI-o4-Mini)在不同任务和上下文下的性能。4)鲁棒性测试模块:评估模型对数据泄露、指令模糊等常见问题的敏感性。5)参数调优模块:研究温度参数对模型性能的影响。

关键创新:论文的关键创新在于构建了一个更贴近实际应用场景的数据科学Agent基准测试,并结合上下文工程技术,更全面地评估Agent的性能。此外,论文还关注了Agent在面对数据泄露、指令模糊等常见问题时的鲁棒性,以及温度参数对模型性能的影响,这些都是现有基准测试所忽略的。

关键设计:在上下文工程方面,论文设计了零样本上下文和多步上下文两种模式,以模拟不同的用户交互场景。在鲁棒性测试方面,论文通过引入数据泄露和指令模糊等干扰因素,评估模型的抗干扰能力。在参数调优方面,论文研究了温度参数对模型性能的影响,并针对不同任务和模型,提出了最佳的温度参数设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,不同LLM和方法在数据科学任务上的性能存在显著差异。例如,在某些任务上,多步上下文工程方法优于零样本上下文工程方法。此外,实验还发现,模型对数据泄露和指令模糊等问题非常敏感,需要采取相应的措施来提高模型的鲁棒性。温度参数对模型性能有显著影响,需要根据具体任务和模型进行调整。

🎯 应用场景

该研究成果可应用于数据科学Agent的开发、评估和部署。通过DSBC基准测试,开发者可以更准确地评估Agent的性能,并针对性地进行优化。企业可以利用该基准测试选择合适的Agent,并根据实际需求进行定制。此外,该研究还可以促进数据科学Agent领域的学术研究,推动Agent技术的不断发展。

📄 摘要(原文)

Recent advances in large language models (LLMs) have significantly impacted data science workflows, giving rise to specialized data science agents designed to automate analytical tasks. Despite rapid adoption, systematic benchmarks evaluating the efficacy and limitations of these agents remain scarce. In this paper, we introduce a comprehensive benchmark specifically crafted to reflect real-world user interactions with data science agents by observing usage of our commercial applications. We evaluate three LLMs: Claude-4.0-Sonnet, Gemini-2.5-Flash, and OpenAI-o4-Mini across three approaches: zero-shot with context engineering, multi-step with context engineering, and with SmolAgent. Our benchmark assesses performance across a diverse set of eight data science task categories, additionally exploring the sensitivity of models to common prompting issues, such as data leakage and slightly ambiguous instructions. We further investigate the influence of temperature parameters on overall and task-specific outcomes for each model and approach. Our findings reveal distinct performance disparities among the evaluated models and methodologies, highlighting critical factors that affect practical deployment. The benchmark dataset and evaluation framework introduced herein aim to provide a foundation for future research of more robust and effective data science agents.