VDSAgents: A PCS-Guided Multi-Agent System for Veridical Data Science Automation

📄 arXiv: 2510.24339v2 📥 PDF

作者: Yunxuan Jiang, Silan Hu, Xiaoning Wang, Yuanyuan Zhang, Xiangyu Chang

分类: cs.AI

发布日期: 2025-10-28 (更新: 2025-10-29)

备注: 29 pages, 6 figures. Yunxuan Jiang and Silan Hu contributed equally. Code available at https://github.com/fengzer/VDSAgents . Submitted to Stat (manuscript ID: STAT-25-0222.R1, under review)


💡 一句话要点

VDSAgents:基于PCS原则的多智能体系统,用于可信数据科学自动化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据科学自动化 多智能体系统 可信数据科学 大型语言模型 PCS原则

📋 核心要点

  1. 现有LLM驱动的数据科学系统依赖内部推理,缺乏科学理论指导,导致鲁棒性和可靠性不足。
  2. VDSAgents基于VDS框架的PCS原则,构建模块化多智能体系统,实现可信的数据科学自动化。
  3. 实验表明,VDSAgents在多个数据集上优于AutoKaggle和DataInterpreter等先进系统,验证了PCS原则的有效性。

📝 摘要(中文)

大型语言模型(LLMs)正日益融入数据科学工作流程,以实现自动化系统设计。然而,这些由LLM驱动的数据科学系统仅依赖于LLM的内部推理,缺乏科学和理论原则的指导。这限制了它们的可靠性和鲁棒性,尤其是在处理嘈杂和复杂的真实世界数据集时。本文提出了VDSAgents,一个基于可信数据科学(VDS)框架中提出的可预测性-可计算性-稳定性(PCS)原则的多智能体系统。在PCS原则的指导下,该系统实现了一个模块化的工作流程,用于数据清洗、特征工程、建模和评估。每个阶段都由一个优雅的智能体处理,结合了扰动分析、单元测试和模型验证,以确保功能性和科学可审计性。我们使用DeepSeek-V3和GPT-4o作为后端,在九个具有不同特征的数据集上评估了VDSAgents,并将其与最先进的端到端数据科学系统(如AutoKaggle和DataInterpreter)进行了比较。VDSAgents始终优于AutoKaggle和DataInterpreter的结果,验证了将PCS原则嵌入到LLM驱动的数据科学自动化中的可行性。

🔬 方法详解

问题定义:现有基于LLM的数据科学自动化系统,如AutoKaggle和DataInterpreter,主要依赖于LLM自身的推理能力,缺乏明确的科学原则指导。这导致系统在处理复杂、噪声大的真实世界数据时,容易产生不可靠、难以解释的结果。因此,如何将科学理论融入LLM驱动的数据科学自动化流程,提高其可信度和鲁棒性,是一个亟待解决的问题。

核心思路:VDSAgents的核心思路是将可信数据科学(VDS)框架中的可预测性-可计算性-稳定性(PCS)原则融入到数据科学自动化流程中。PCS原则强调数据处理流程的可预测性、计算结果的可验证性以及模型在不同数据分布下的稳定性。通过在数据清洗、特征工程、建模和评估等各个阶段应用PCS原则,可以提高整个系统的透明度、可靠性和可审计性。

技术框架:VDSAgents采用多智能体系统架构,将数据科学流程分解为多个模块化的阶段,每个阶段由一个专门的智能体负责。这些智能体协同工作,完成数据清洗、特征工程、模型训练和评估等任务。每个智能体都遵循PCS原则,例如,在数据清洗阶段,智能体会进行数据质量评估和异常值检测,确保数据的可预测性;在特征工程阶段,智能体会进行特征选择和转换,并进行单元测试,确保特征的可计算性;在模型训练阶段,智能体会进行模型验证和稳定性分析,确保模型的稳定性。

关键创新:VDSAgents的关键创新在于将VDS框架的PCS原则融入到LLM驱动的数据科学自动化流程中。与以往的端到端系统不同,VDSAgents不是简单地依赖LLM的内部推理,而是通过PCS原则对LLM的行为进行约束和指导,从而提高系统的可信度和鲁棒性。此外,VDSAgents采用模块化的多智能体架构,使得系统更加灵活和可扩展,可以方便地添加新的智能体或修改现有智能体的行为。

关键设计:VDSAgents的关键设计包括:(1) 基于PCS原则的智能体设计:每个智能体都包含一组规则和算法,用于实现PCS原则。例如,数据清洗智能体包含异常值检测算法和数据质量评估规则;(2) 模块化的工作流程:数据科学流程被分解为多个模块化的阶段,每个阶段由一个专门的智能体负责。这种模块化的设计使得系统更加灵活和可扩展;(3) 基于LLM的智能体实现:每个智能体的行为由LLM驱动,但受到PCS原则的约束。例如,LLM可以生成特征工程的代码,但必须通过单元测试才能被接受。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VDSAgents在九个不同数据集上的实验结果表明,其性能始终优于AutoKaggle和DataInterpreter等最先进的端到端数据科学系统。具体而言,VDSAgents在多个数据集上的预测准确率提高了5%-10%,并且能够提供更加可解释的分析结果。这些结果验证了将PCS原则嵌入到LLM驱动的数据科学自动化中的可行性和有效性。

🎯 应用场景

VDSAgents可应用于各种需要可信数据科学自动化的领域,例如金融风险评估、医疗诊断、智能制造等。该系统能够帮助数据科学家快速构建可靠的数据分析模型,并提供可解释的分析结果,从而提高决策的效率和准确性。未来,VDSAgents有望成为数据科学领域的重要工具,推动数据驱动的决策在各个行业的广泛应用。

📄 摘要(原文)

Large language models (LLMs) become increasingly integrated into data science workflows for automated system design. However, these LLM-driven data science systems rely solely on the internal reasoning of LLMs, lacking guidance from scientific and theoretical principles. This limits their trustworthiness and robustness, especially when dealing with noisy and complex real-world datasets. This paper provides VDSAgents, a multi-agent system grounded in the Predictability-Computability-Stability (PCS) principles proposed in the Veridical Data Science (VDS) framework. Guided by PCS principles, the system implements a modular workflow for data cleaning, feature engineering, modeling, and evaluation. Each phase is handled by an elegant agent, incorporating perturbation analysis, unit testing, and model validation to ensure both functionality and scientific auditability. We evaluate VDSAgents on nine datasets with diverse characteristics, comparing it with state-of-the-art end-to-end data science systems, such as AutoKaggle and DataInterpreter, using DeepSeek-V3 and GPT-4o as backends. VDSAgents consistently outperforms the results of AutoKaggle and DataInterpreter, which validates the feasibility of embedding PCS principles into LLM-driven data science automation.