LLM-Based Data Science Agents: A Survey of Capabilities, Challenges, and Future Directions
作者: Mizanur Rahman, Amran Bhuiyan, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, Ridwan Mahbub, Ahmed Masry, Shafiq Joty, Enamul Hoque
分类: cs.AI, cs.CL
发布日期: 2025-10-05
备注: Survey paper; 45 data science agents; under review
💡 一句话要点
综述:基于LLM的数据科学Agent能力、挑战与未来方向
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数据科学Agent 大型语言模型 自动化 多模态推理 工具编排 信任与安全 综述
📋 核心要点
- 现有数据科学Agent在业务理解、部署和监控等阶段存在不足,多模态推理和工具编排面临挑战。
- 该综述对45个数据科学Agent进行生命周期和设计维度分析,系统地分析了现有Agent的能力。
- 分析发现大多数Agent侧重于探索性分析和建模,缺乏信任和安全机制,并提出了未来研究方向。
📝 摘要(中文)
大型语言模型(LLM)的最新进展催生了一类新型AI Agent,它们通过整合规划、工具使用以及跨文本、代码、表格和视觉的多模态推理,自动执行数据科学工作流程的多个阶段。本综述首次全面地、按照生命周期对数据科学Agent进行分类,系统地分析了45个系统,并将它们映射到端到端数据科学过程的六个阶段:业务理解和数据获取、探索性分析和可视化、特征工程、模型构建和选择、解释和说明以及部署和监控。除了生命周期覆盖范围外,我们还沿着五个横向设计维度对每个Agent进行注释:推理和规划风格、模态集成、工具编排深度、学习和对齐方法以及信任、安全和治理机制。除了分类之外,我们还对Agent的能力进行了批判性综合,强调了每个阶段的优势和局限性,并回顾了新兴的基准和评估实践。我们的分析确定了三个关键趋势:大多数系统强调探索性分析、可视化和建模,而忽略了业务理解、部署和监控;多模态推理和工具编排仍然是未解决的挑战;超过90%的系统缺乏明确的信任和安全机制。最后,我们概述了对齐稳定性、可解释性、治理和稳健的评估框架方面的开放性挑战,并提出了未来的研究方向,以指导开发稳健、可信、低延迟、透明且广泛可访问的数据科学Agent。
🔬 方法详解
问题定义:当前的数据科学流程自动化面临诸多挑战,现有的数据科学Agent在端到端的流程覆盖上存在不足,尤其是在业务理解、部署和监控等环节。此外,多模态数据的有效利用和工具的灵活编排仍然是亟待解决的问题。现有Agent在信任、安全和治理机制方面也存在明显的缺失,限制了其在实际应用中的可靠性和安全性。
核心思路:该综述的核心思路是对现有数据科学Agent进行系统性的分类和分析,从而全面了解它们的能力、局限性和发展趋势。通过构建一个生命周期对齐的分类体系,并从多个设计维度对Agent进行评估,可以识别出当前研究的重点和不足,为未来的研究提供指导。
技术框架:该综述的技术框架主要包括以下几个阶段:1) 文献收集:收集并整理了45个数据科学Agent的相关文献。2) 分类体系构建:构建了一个基于数据科学生命周期的分类体系,包括业务理解和数据获取、探索性分析和可视化、特征工程、模型构建和选择、解释和说明以及部署和监控六个阶段。3) 设计维度分析:从推理和规划风格、模态集成、工具编排深度、学习和对齐方法以及信任、安全和治理机制五个维度对Agent进行分析。4) 综合评估:对Agent的能力进行综合评估,识别优势和局限性,并回顾新兴的基准和评估实践。
关键创新:该综述的创新之处在于:1) 首次提出了一个全面、生命周期对齐的数据科学Agent分类体系。2) 从多个设计维度对Agent进行了深入分析,揭示了当前研究的重点和不足。3) 强调了信任、安全和治理机制在数据科学Agent中的重要性,并指出了未来的研究方向。
关键设计:该综述的关键设计在于其分类体系和设计维度的选择。生命周期分类体系能够全面地反映Agent在数据科学流程中的作用,而设计维度的选择则能够深入地揭示Agent的技术特点和潜在问题。此外,对信任、安全和治理机制的关注也是一个重要的设计考量,旨在提高Agent的可靠性和安全性。
🖼️ 关键图片
📊 实验亮点
该综述分析发现,大多数数据科学Agent侧重于探索性分析、可视化和建模,而忽略了业务理解、部署和监控。超过90%的Agent缺乏明确的信任和安全机制。这些发现为未来的研究提供了重要的指导,强调了在这些关键领域进行改进的必要性。
🎯 应用场景
该研究成果可应用于自动化数据科学流程,提高数据分析效率,降低数据科学门槛。通过构建更完善的数据科学Agent,可以帮助企业更好地利用数据驱动决策,加速数字化转型。未来的研究方向包括开发更安全、可信、可解释的数据科学Agent,以及构建更有效的评估框架。
📄 摘要(原文)
Recent advances in large language models (LLMs) have enabled a new class of AI agents that automate multiple stages of the data science workflow by integrating planning, tool use, and multimodal reasoning across text, code, tables, and visuals. This survey presents the first comprehensive, lifecycle-aligned taxonomy of data science agents, systematically analyzing and mapping forty-five systems onto the six stages of the end-to-end data science process: business understanding and data acquisition, exploratory analysis and visualization, feature engineering, model building and selection, interpretation and explanation, and deployment and monitoring. In addition to lifecycle coverage, we annotate each agent along five cross-cutting design dimensions: reasoning and planning style, modality integration, tool orchestration depth, learning and alignment methods, and trust, safety, and governance mechanisms. Beyond classification, we provide a critical synthesis of agent capabilities, highlight strengths and limitations at each stage, and review emerging benchmarks and evaluation practices. Our analysis identifies three key trends: most systems emphasize exploratory analysis, visualization, and modeling while neglecting business understanding, deployment, and monitoring; multimodal reasoning and tool orchestration remain unresolved challenges; and over 90% lack explicit trust and safety mechanisms. We conclude by outlining open challenges in alignment stability, explainability, governance, and robust evaluation frameworks, and propose future research directions to guide the development of robust, trustworthy, low-latency, transparent, and broadly accessible data science agents.