Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

📄 arXiv: 2407.10956v1 📥 PDF

作者: Ruisheng Cao, Fangyu Lei, Haoyuan Wu, Jixuan Chen, Yeqiao Fu, Hongcheng Gao, Xinzhuang Xiong, Hanchong Zhang, Yuchen Mao, Wenjing Hu, Tianbao Xie, Hongshen Xu, Danyang Zhang, Sida Wang, Ruoxi Sun, Pengcheng Yin, Caiming Xiong, Ansong Ni, Qian Liu, Victor Zhong, Lu Chen, Kai Yu, Tao Yu

分类: cs.AI, cs.CL

发布日期: 2024-07-15

备注: 34 pages, 14 figures, 10 tables


💡 一句话要点

Spider2-V:评估多模态Agent在自动化数据科学与工程工作流中的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态Agent 数据科学 工程工作流 基准测试 视觉语言模型 自动化 GUI操作

📋 核心要点

  1. 现有方法难以自动化复杂的数据科学与工程工作流,尤其是在涉及多种工具和GUI操作时。
  2. Spider2-V基准测试旨在评估多模态Agent在真实企业级数据软件环境中执行数据相关任务的能力。
  3. 实验结果表明,现有LLM/VLM Agent在自动化完整数据工作流方面表现不佳,尤其是在细粒度GUI操作和云托管环境方面。

📝 摘要(中文)

数据科学与工程工作流通常跨越多个阶段,涉及数据仓库到流程编排等环节,并使用BigQuery、dbt和Airbyte等工具。随着视觉语言模型(VLMs)在多模态理解和代码生成方面的进步,基于VLM的Agent有可能通过生成SQL查询、Python代码和GUI操作来自动化这些工作流。这种自动化可以提高专家的生产力,同时普及大规模数据分析的访问。本文介绍了Spider2-V,这是第一个专注于专业数据科学与工程工作流的多模态Agent基准,包含494个真实世界的任务,这些任务位于真实的计算机环境中,并整合了20个企业级专业应用程序。这些任务源于真实世界的用例,通过编写代码和管理企业数据软件系统中的GUI来评估多模态Agent执行数据相关任务的能力。为了平衡现实模拟与评估的简易性,我们投入了大量精力来开发任务设置的自动配置,并为每个任务精心设计了评估指标。此外,我们还为多模态Agent补充了这些企业数据软件系统的全面文档。我们的实证评估表明,现有的最先进的基于LLM/VLM的Agent无法可靠地自动化完整的数据工作流(成功率为14.0%)。即使在逐步指导下,这些Agent在需要细粒度、知识密集型GUI操作(16.2%)和涉及远程云托管工作区(10.6%)的任务中仍然表现不佳。我们希望Spider2-V为自主多模态Agent铺平道路,以改变数据科学和工程工作流的自动化。

🔬 方法详解

问题定义:论文旨在解决多模态Agent在自动化数据科学和工程工作流中的能力评估问题。现有方法在处理涉及多种工具(如BigQuery、dbt、Airbyte)和复杂GUI操作的真实世界任务时存在不足,难以可靠地自动化整个工作流程。现有的Agent在细粒度、知识密集型的GUI操作以及远程云托管工作区环境中表现不佳。

核心思路:论文的核心思路是构建一个更贴近真实数据科学与工程实践的基准测试环境,即Spider2-V。该基准包含真实世界的任务,涉及多种企业级数据软件,并提供全面的文档支持,从而更全面地评估Agent在实际应用中的能力。通过分析Agent在不同类型任务上的表现,可以更清晰地了解其优势和局限性。

技术框架:Spider2-V基准测试包含以下主要组成部分:1) 494个真实世界的数据科学与工程任务,这些任务源于实际用例;2) 20个企业级专业应用程序,涵盖数据仓库、流程编排等多个领域;3) 自动化的任务设置配置,简化了评估流程;4) 精心设计的评估指标,用于衡量Agent在不同任务上的表现;5) 完备的企业数据软件系统文档,为Agent提供必要的知识支持。

关键创新:Spider2-V的关键创新在于其真实性和全面性。与以往的基准测试相比,Spider2-V更贴近真实的数据科学与工程实践,涵盖了更广泛的任务类型和更复杂的环境设置。此外,Spider2-V还提供了全面的文档支持,这使得Agent能够更好地理解和利用各种数据软件工具。

关键设计:为了确保评估的准确性和可靠性,论文在任务设计和评估指标方面进行了精心的设计。任务设计尽可能贴近真实世界的用例,并涵盖了各种常见的数据科学与工程任务。评估指标则综合考虑了Agent的准确性、效率和鲁棒性,从而更全面地衡量其性能。具体的参数设置和网络结构取决于被评估的Agent模型,Spider2-V主要提供评估环境和任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有最先进的LLM/VLM Agent在Spider2-V基准测试上的整体成功率仅为14.0%。即使在提供逐步指导的情况下,Agent在需要细粒度GUI操作的任务上的成功率也仅为16.2%,在涉及远程云托管工作区的任务上的成功率仅为10.6%。这些结果表明,现有Agent在自动化复杂数据科学与工程工作流方面仍存在很大的提升空间。

🎯 应用场景

该研究成果可应用于评估和改进多模态Agent在自动化数据科学与工程工作流方面的能力。通过Spider2-V基准测试,可以更有效地识别Agent的瓶颈和不足,并指导Agent的设计和优化。未来,该研究有望推动数据科学与工程的自动化进程,提高数据分析的效率和可访问性。

📄 摘要(原文)

Data science and engineering workflows often span multiple stages, from warehousing to orchestration, using tools like BigQuery, dbt, and Airbyte. As vision language models (VLMs) advance in multimodal understanding and code generation, VLM-based agents could potentially automate these workflows by generating SQL queries, Python code, and GUI operations. This automation can improve the productivity of experts while democratizing access to large-scale data analysis. In this paper, we introduce Spider2-V, the first multimodal agent benchmark focusing on professional data science and engineering workflows, featuring 494 real-world tasks in authentic computer environments and incorporating 20 enterprise-level professional applications. These tasks, derived from real-world use cases, evaluate the ability of a multimodal agent to perform data-related tasks by writing code and managing the GUI in enterprise data software systems. To balance realistic simulation with evaluation simplicity, we devote significant effort to developing automatic configurations for task setup and carefully crafting evaluation metrics for each task. Furthermore, we supplement multimodal agents with comprehensive documents of these enterprise data software systems. Our empirical evaluation reveals that existing state-of-the-art LLM/VLM-based agents do not reliably automate full data workflows (14.0% success). Even with step-by-step guidance, these agents still underperform in tasks that require fine-grained, knowledge-intensive GUI actions (16.2%) and involve remote cloud-hosted workspaces (10.6%). We hope that Spider2-V paves the way for autonomous multimodal agents to transform the automation of data science and engineering workflow. Our code and data are available at https://spider2-v.github.io.