Can Agentic AI Match the Performance of Human Data Scientists?

📄 arXiv: 2512.20959v1 📥 PDF

作者: An Luo, Jin Du, Fangqiao Tian, Xun Xian, Robert Specht, Ganghua Wang, Xuan Bi, Charles Fleming, Jayanth Srinivasa, Ashish Kundu, Mingyi Hong, Jie Ding

分类: cs.LG, cs.AI, stat.ME

发布日期: 2025-12-24


💡 一句话要点

Agentic AI在数据科学中难匹人类专家:领域知识缺失是瓶颈

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic AI 数据科学 领域知识 大型语言模型 图像数据 预测任务 性能评估

📋 核心要点

  1. 现有agentic AI在数据科学任务中,无法有效利用领域知识,导致性能受限。
  2. 论文设计实验,将关键信息隐藏在图像数据中,模拟需要领域知识才能解决的预测问题。
  3. 实验表明,通用agentic AI在需要领域知识的任务中表现不佳,凸显了其局限性。

📝 摘要(中文)

数据科学在将复杂数据转化为可执行的洞察方面起着关键作用。大型语言模型(LLMs)的最新进展已显著自动化了数据科学工作流程,但一个根本问题仍然存在:这些agentic AI系统能否真正匹配人类数据科学家的表现,后者通常会利用领域特定的知识?我们通过设计一个预测任务来探索这个问题,其中一个关键的潜在变量隐藏在相关的图像数据中,而不是表格特征中。因此,为建模表格数据生成通用代码的agentic AI无法表现良好,而人类专家可以使用领域知识识别重要的隐藏变量。我们用财产保险的合成数据集证明了这个想法。我们的实验表明,依赖于通用分析工作流程的agentic AI不如使用领域特定见解的方法。这突出了当前用于数据科学的agentic AI的一个关键局限性,并强调了未来研究需要开发能够更好识别和整合领域知识的agentic AI系统。

🔬 方法详解

问题定义:论文旨在研究当前agentic AI在数据科学任务中,是否能够达到人类数据科学家的水平,尤其是在需要领域知识的情况下。现有agentic AI主要依赖于通用代码和表格数据分析,缺乏对领域知识的有效利用,导致在特定场景下性能受限。

核心思路:论文的核心思路是通过设计一个特定的预测任务,该任务的关键信息隐藏在图像数据中,而非传统的表格特征中。这样,只有具备相关领域知识的人类专家才能识别出这些隐藏信息,从而做出准确的预测,而缺乏领域知识的agentic AI则难以胜任。

技术框架:论文构建了一个基于财产保险的合成数据集。该数据集包含房屋的图像数据,其中隐藏了影响保险风险的关键信息(例如,房屋的维护状况)。研究人员比较了人类专家和agentic AI在预测保险风险方面的表现。agentic AI使用通用的数据科学工作流程,包括数据清洗、特征工程和模型训练。人类专家则利用其对房屋维护和保险风险的领域知识来识别图像中的关键信息。

关键创新:论文的关键创新在于设计了一种新的评估agentic AI的方法,该方法强调了领域知识的重要性。通过将关键信息隐藏在图像数据中,论文成功地模拟了需要领域知识才能解决的实际问题。这与以往主要关注表格数据分析的agentic AI研究形成了鲜明对比。

关键设计:论文使用合成数据集,可以精确控制隐藏信息的类型和强度。agentic AI使用常见的机器学习模型,如线性回归和决策树。人类专家通过人工标注图像数据来提供领域知识。论文比较了agentic AI和人类专家在预测准确率、召回率和F1值等指标上的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在财产保险的合成数据集上,依赖通用分析流程的agentic AI在预测保险风险方面的表现明显不如人类专家。人类专家能够利用领域知识识别图像中的关键信息,从而做出更准确的预测。这表明,当前agentic AI在处理需要领域知识的任务时存在明显的局限性。

🎯 应用场景

该研究成果可应用于评估和改进现有agentic AI系统在各个领域的应用,尤其是在医疗诊断、金融风险评估等需要领域知识的场景中。未来的agentic AI系统需要更好地整合领域知识,才能真正达到甚至超越人类专家的水平,从而实现更高效、更智能的数据分析。

📄 摘要(原文)

Data science plays a critical role in transforming complex data into actionable insights across numerous domains. Recent developments in large language models (LLMs) have significantly automated data science workflows, but a fundamental question persists: Can these agentic AI systems truly match the performance of human data scientists who routinely leverage domain-specific knowledge? We explore this question by designing a prediction task where a crucial latent variable is hidden in relevant image data instead of tabular features. As a result, agentic AI that generates generic codes for modeling tabular data cannot perform well, while human experts could identify the important hidden variable using domain knowledge. We demonstrate this idea with a synthetic dataset for property insurance. Our experiments show that agentic AI that relies on generic analytics workflow falls short of methods that use domain-specific insights. This highlights a key limitation of the current agentic AI for data science and underscores the need for future research to develop agentic AI systems that can better recognize and incorporate domain knowledge.