Can Agentic AI Match the Performance of Human Data Scientists?

作者: An Luo, Jin Du, Fangqiao Tian, Xun Xian, Robert Specht, Ganghua Wang, Xuan Bi, Charles Fleming, Jayanth Srinivasa, Ashish Kundu, Mingyi Hong, Jie Ding

分类: cs.LG, cs.AI, stat.ME

发布日期: 2025-12-24

💡 一句话要点

Agentic AI在数据科学中能否匹敌人类专家？领域知识至关重要

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Agentic AI 数据科学 领域知识 大型语言模型 图像数据 预测任务 人机协作

📋 核心要点

现有agentic AI在数据科学任务中，尤其是在需要领域知识的任务中，性能与人类专家存在差距。
论文设计了一个预测任务，其中关键信息隐藏在图像数据中，以此来模拟需要领域知识才能解决的问题。
实验表明，依赖通用分析流程的agentic AI在处理此类任务时表现不佳，突显了领域知识的重要性。

📝 摘要（中文）

数据科学在将复杂数据转化为可执行的洞察方面发挥着关键作用。大型语言模型（LLMs）的最新发展已显著自动化了数据科学工作流程，但一个根本问题仍然存在：这些agentic AI系统能否真正匹敌那些经常利用领域特定知识的人类数据科学家？我们通过设计一个预测任务来探索这个问题，其中一个关键的潜在变量隐藏在相关的图像数据中，而不是表格特征中。因此，为建模表格数据生成通用代码的agentic AI无法表现良好，而人类专家可以使用领域知识识别重要的隐藏变量。我们用财产保险的合成数据集证明了这一想法。我们的实验表明，依赖于通用分析工作流程的agentic AI不如使用领域特定见解的方法。这突出了当前用于数据科学的agentic AI的一个关键局限性，并强调了未来研究开发能够更好识别和整合领域知识的agentic AI系统的必要性。

🔬 方法详解

问题定义：论文旨在研究当前agentic AI在数据科学任务中，尤其是在需要领域知识的任务中，是否能够达到人类专家的水平。现有agentic AI主要依赖于通用代码和表格数据分析，缺乏对领域知识的有效利用，导致在某些任务中表现不佳。

核心思路：论文的核心思路是通过设计一个特殊的预测任务，该任务的关键信息隐藏在图像数据中，而非传统的表格特征中。这样，只有具备相关领域知识的人类专家才能识别出这些隐藏信息，从而做出准确的预测。而缺乏领域知识的agentic AI则难以有效解决该问题。

技术框架：论文的技术框架主要包括以下几个部分：1) 构建一个合成数据集，模拟财产保险领域的预测任务；2) 将关键的潜在变量隐藏在图像数据中；3) 使用agentic AI和人类专家分别对该数据集进行建模和预测；4) 比较agentic AI和人类专家的预测性能。

关键创新：论文最重要的技术创新点在于其任务设计，即巧妙地将关键信息隐藏在图像数据中，从而模拟了需要领域知识才能解决的实际问题。这种设计能够有效地评估agentic AI在利用领域知识方面的能力，并揭示其与人类专家之间的差距。

关键设计：在数据集构建方面，论文使用了合成数据，并控制了数据中的噪声和相关性，以确保实验结果的可靠性。在模型选择方面，论文选择了具有代表性的agentic AI系统，并对其进行了适当的配置和优化。在性能评估方面，论文使用了多种指标，如准确率、召回率和F1值，以全面评估agentic AI和人类专家的预测性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在关键信息隐藏在图像数据中的预测任务中，依赖通用分析流程的agentic AI的性能明显低于人类专家。这表明，当前agentic AI在利用领域知识方面存在不足，无法有效解决需要领域知识的任务。该研究结果为改进agentic AI系统提供了重要的指导。

🎯 应用场景

该研究成果可应用于评估和改进现有agentic AI系统在数据科学领域的应用能力，尤其是在需要领域知识的任务中。通过揭示agentic AI的局限性，可以指导未来的研究方向，例如开发能够更好整合领域知识的agentic AI系统，从而提高其在实际应用中的性能和可靠性。此外，该研究还可以促进人机协作，让人类专家和agentic AI能够更好地协同工作，共同解决复杂的数据科学问题。

📄 摘要（原文）

Data science plays a critical role in transforming complex data into actionable insights across numerous domains. Recent developments in large language models (LLMs) have significantly automated data science workflows, but a fundamental question persists: Can these agentic AI systems truly match the performance of human data scientists who routinely leverage domain-specific knowledge? We explore this question by designing a prediction task where a crucial latent variable is hidden in relevant image data instead of tabular features. As a result, agentic AI that generates generic codes for modeling tabular data cannot perform well, while human experts could identify the important hidden variable using domain knowledge. We demonstrate this idea with a synthetic dataset for property insurance. Our experiments show that agentic AI that relies on generic analytics workflow falls short of methods that use domain-specific insights. This highlights a key limitation of the current agentic AI for data science and underscores the need for future research to develop agentic AI systems that can better recognize and incorporate domain knowledge.

Can Agentic AI Match the Performance of Human Data Scientists?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册