A Survey of Data Agents: Emerging Paradigm or Overstated Hype?
作者: Yizhang Zhu, Liangwei Wang, Chenyu Yang, Xiaotian Lin, Boyan Li, Wei Zhou, Xinyu Liu, Zhangyang Peng, Tianqi Luo, Yu Li, Chengliang Chai, Chong Chen, Shimin Di, Ju Fan, Ji Sun, Nan Tang, Fugee Tsung, Jiannan Wang, Chenglin Wu, Yanwei Xu, Shaolei Zhang, Yong Zhang, Xuanhe Zhou, Guoliang Li, Yuyu Luo
分类: cs.DB, cs.AI
发布日期: 2025-10-27
备注: Please refer to our paper list and companion materials at: https://github.com/HKUSTDial/awesome-data-agents
💡 一句话要点
构建数据Agent分级体系,厘清自主程度,促进数据+AI生态发展。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数据Agent 自主系统 分级体系 大型语言模型 数据管理 数据分析 人工智能 自动化
📋 核心要点
- 现有数据Agent概念模糊,缺乏明确的自主程度分级,导致用户期望与实际能力不符。
- 论文提出一种六级分层的数据Agent分类体系,借鉴自动驾驶分级标准,清晰界定各级别自主性。
- 通过分级体系,论文系统性地回顾了现有数据Agent研究,并分析了技术瓶颈和未来发展方向。
📝 摘要(中文)
大型语言模型(LLMs)的快速发展催生了数据Agent的出现,这是一种旨在协调数据+AI生态系统以解决复杂数据相关任务的自主系统。然而,“数据Agent”一词目前存在术语模糊和采用不一致的问题,将简单的查询响应器与复杂的自主架构混为一谈。这种术语模糊导致用户期望不匹配、责任追究挑战以及行业增长障碍。受SAE J3016驾驶自动化标准的启发,本综述首次引入了数据Agent的系统分层分类法,包括六个级别,这些级别界定并追踪了自主性的渐进式转变,从手动操作(L0)到生成式、完全自主的数据Agent(L5)的愿景,从而明确了能力边界和责任分配。通过这个视角,我们对现有研究进行了结构化回顾,按照自主性的递增顺序排列,包括用于数据管理、准备和分析的专用数据Agent,以及为增强自主性的通用、综合系统的新兴努力。我们进一步分析了推进数据Agent的关键进化飞跃和技术差距,特别是正在进行的L2到L3的过渡,在此过渡中,数据Agent从程序执行演变为自主编排。最后,我们以一份前瞻性路线图作为结尾,展望了主动式、生成式数据Agent的出现。
🔬 方法详解
问题定义:现有数据Agent概念定义模糊,缺乏统一的标准来衡量其自主性水平。这导致用户难以理解不同数据Agent的能力边界,同时也阻碍了该领域的健康发展。现有方法要么过于简单,将所有数据Agent视为同质,要么过于复杂,难以实际应用。
核心思路:借鉴SAE J3016自动驾驶分级标准,将数据Agent的自主性划分为六个级别(L0-L5),从完全手动到完全自主。每个级别都明确定义了数据Agent所能执行的任务、所需的干预程度以及相应的责任归属。
技术框架:论文构建了一个分层分类体系,包含以下六个级别:L0(手动操作)、L1(辅助操作)、L2(部分自动化)、L3(有条件自动化)、L4(高度自动化)和L5(完全自动化)。每个级别都对应着不同的数据处理能力和自主程度。论文还对现有数据Agent研究进行了分类,并分析了从L2到L3过渡的关键技术挑战。
关键创新:该论文最重要的创新在于提出了数据Agent的分级体系,这为评估和比较不同的数据Agent提供了一个统一的框架。该体系不仅有助于用户更好地理解数据Agent的能力,也有助于研究人员更好地识别技术瓶颈和未来的研究方向。
关键设计:该分级体系的设计参考了自动驾驶的分级标准,并根据数据Agent的特点进行了调整。例如,L3级别的数据Agent需要在特定条件下能够自主执行数据处理任务,但仍然需要人工干预。论文还详细讨论了每个级别所需的技术能力和伦理考量。
🖼️ 关键图片
📊 实验亮点
论文提出了首个数据Agent分级体系,并基于此体系对现有研究进行了系统性回顾。该体系能够清晰地界定不同数据Agent的自主程度,并为未来的研究方向提供了指导。该研究为数据Agent领域的发展奠定了基础。
🎯 应用场景
该研究成果可应用于数据管理、数据分析、智能决策等多个领域。通过明确数据Agent的自主程度,可以帮助企业更好地选择和部署适合自身需求的数据Agent,提高数据处理效率和决策质量。此外,该分级体系也有助于规范数据Agent市场,促进该领域的健康发展。
📄 摘要(原文)
The rapid advancement of large language models (LLMs) has spurred the emergence of data agents--autonomous systems designed to orchestrate Data + AI ecosystems for tackling complex data-related tasks. However, the term "data agent" currently suffers from terminological ambiguity and inconsistent adoption, conflating simple query responders with sophisticated autonomous architectures. This terminological ambiguity fosters mismatched user expectations, accountability challenges, and barriers to industry growth. Inspired by the SAE J3016 standard for driving automation, this survey introduces the first systematic hierarchical taxonomy for data agents, comprising six levels that delineate and trace progressive shifts in autonomy, from manual operations (L0) to a vision of generative, fully autonomous data agents (L5), thereby clarifying capability boundaries and responsibility allocation. Through this lens, we offer a structured review of existing research arranged by increasing autonomy, encompassing specialized data agents for data management, preparation, and analysis, alongside emerging efforts toward versatile, comprehensive systems with enhanced autonomy. We further analyze critical evolutionary leaps and technical gaps for advancing data agents, especially the ongoing L2-to-L3 transition, where data agents evolve from procedural execution to autonomous orchestration. Finally, we conclude with a forward-looking roadmap, envisioning the advent of proactive, generative data agents.