AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

📄 arXiv: 2603.19005v1 📥 PDF

作者: An Luo, Jin Du, Xun Xian, Robert Specht, Fangqiao Tian, Ganghua Wang, Xuan Bi, Charles Fleming, Ashish Kundu, Jayanth Srinivasa, Mingyi Hong, Rui Zhang, Tianxi Li, Galin Jones, Jie Ding

分类: cs.LG, cs.AI, stat.ME

发布日期: 2026-03-19

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

AgentDS:领域数据科学中人机协作的基准测试与未来探索

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机协作 领域数据科学 基准测试 大型语言模型 AI代理

📋 核心要点

  1. 现有AI在领域数据科学任务中表现不足,难以匹配人类专家,尤其是在领域特定推理方面。
  2. AgentDS通过构建包含多行业挑战的基准测试,系统评估AI代理和人机协作的性能。
  3. 实验结果表明,纯AI基线表现平平,人机协作方案表现最佳,突显人类专业知识的重要性。

📝 摘要(中文)

数据科学在将复杂数据转化为可执行的洞察方面发挥着关键作用。大型语言模型(LLMs)和人工智能(AI)代理的最新发展显著地自动化了数据科学工作流程。然而,AI代理在多大程度上能够匹配人类专家在特定领域数据科学任务上的表现,以及人类专业知识在哪些方面继续提供优势,仍然不清楚。我们推出了AgentDS,这是一个旨在评估AI代理和人机协作在特定领域数据科学中表现的基准和竞赛。AgentDS包含六个行业(商业、食品生产、医疗保健、保险、制造业和零售银行)的17项挑战。我们进行了一场有29个团队和80名参与者参加的公开竞赛,从而能够系统地比较人机协作方法和纯AI基线。结果表明,当前的AI代理在特定领域的推理方面存在困难。纯AI基线的表现接近或低于竞赛参与者的中位数,而最强的解决方案来自人机协作。这些发现挑战了AI完全自动化的说法,并强调了人类专业知识在数据科学中的持久重要性,同时为下一代AI指明了方向。

🔬 方法详解

问题定义:当前AI代理在特定领域的数据科学任务中,尤其是在需要领域知识进行推理的任务中,表现与人类专家存在差距。现有方法难以有效利用领域知识,导致自动化程度受限,无法完全替代人类专家。因此,如何提升AI在领域数据科学任务中的性能,并有效实现人机协作,是亟待解决的问题。

核心思路:AgentDS的核心思路是通过构建一个包含多个行业领域数据科学任务的基准测试,来系统地评估AI代理和人机协作的性能。通过对比纯AI基线和人机协作方案,揭示AI在不同任务中的优势和不足,并探索人机协作的最佳模式。这种方法旨在推动AI在领域数据科学中的发展,并促进人机协作的有效应用。

技术框架:AgentDS的技术框架主要包含以下几个部分:1) 数据集构建:收集来自六个行业的17个数据科学挑战,涵盖商业、食品生产、医疗保健、保险、制造业和零售银行等领域。2) 竞赛平台:搭建一个开放的竞赛平台,供参赛者提交AI代理和人机协作方案。3) 评估指标:定义一套全面的评估指标,用于衡量AI代理和人机协作方案的性能,包括准确率、召回率、F1值等。4) 结果分析:对竞赛结果进行深入分析,比较不同方案的优劣,并总结AI在不同任务中的优势和不足。

关键创新:AgentDS的关键创新在于:1) 首次构建了一个针对领域数据科学的人机协作基准测试,填补了该领域的空白。2) 涵盖了多个行业领域的数据科学挑战,具有广泛的代表性。3) 通过开放竞赛的方式,吸引了众多研究者和开发者参与,促进了该领域的发展。4) 系统地比较了纯AI基线和人机协作方案的性能,揭示了人机协作的优势和潜力。

关键设计:AgentDS的关键设计包括:1) 数据集的多样性:确保数据集涵盖不同行业、不同类型的数据科学任务,以评估AI在不同场景下的性能。2) 评估指标的全面性:采用多种评估指标,从不同角度衡量AI代理和人机协作方案的性能。3) 竞赛规则的公平性:制定公平的竞赛规则,确保所有参赛者在同等条件下进行竞争。4) 结果分析的深入性:对竞赛结果进行深入分析,挖掘AI在不同任务中的优势和不足,为未来的研究提供指导。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AgentDS竞赛结果显示,纯AI基线的表现接近或低于竞赛参与者的中位数,表明当前AI在领域数据科学任务中仍存在不足。然而,人机协作方案表现最佳,显著优于纯AI基线,突显了人类专业知识在数据科学中的重要性。这表明,当前阶段人机协作是提升领域数据科学任务性能的有效途径。

🎯 应用场景

AgentDS的研究成果可应用于多个领域,例如:辅助数据科学家进行数据分析和建模,提高工作效率;为企业提供智能决策支持,优化业务流程;开发智能化的行业解决方案,提升行业竞争力。未来,AgentDS有望成为领域数据科学研究的重要基准,推动AI在各行业的广泛应用。

📄 摘要(原文)

Data science plays a critical role in transforming complex data into actionable insights across numerous domains. Recent developments in large language models (LLMs) and artificial intelligence (AI) agents have significantly automated data science workflow. However, it remains unclear to what extent AI agents can match the performance of human experts on domain-specific data science tasks, and in which aspects human expertise continues to provide advantages. We introduce AgentDS, a benchmark and competition designed to evaluate both AI agents and human-AI collaboration performance in domain-specific data science. AgentDS consists of 17 challenges across six industries: commerce, food production, healthcare, insurance, manufacturing, and retail banking. We conducted an open competition involving 29 teams and 80 participants, enabling systematic comparison between human-AI collaborative approaches and AI-only baselines. Our results show that current AI agents struggle with domain-specific reasoning. AI-only baselines perform near or below the median of competition participants, while the strongest solutions arise from human-AI collaboration. These findings challenge the narrative of complete automation by AI and underscore the enduring importance of human expertise in data science, while illuminating directions for the next generation of AI. Visit the AgentDS website here: https://agentds.org/ and open source datasets here: https://huggingface.co/datasets/lainmn/AgentDS .