ProSPy: A Profiling-Driven SQL-Python Agentic Framework for Enterprise Text-to-SQL

📄 arXiv: 2606.05836v1 📥 PDF

作者: Zhaorui Yang, Huawei Zheng, Sen Yang, Yuhui Zhang, Haoxuan Li, Zhizhen Yu, Xuan Yi, Chen Hou, Defeng Xie, Chao Hu, Minfeng Zhu, Dazhen Deng, Haozhe Feng, Danqing Huang, Yingcai Wu, Peng Chen, Wei Chen

分类: cs.CL

发布日期: 2026-06-04

备注: 24 pages, 12 figures


💡 一句话要点

提出ProSPy框架以解决企业级Text-to-SQL的挑战

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Text-to-SQL 企业数据库 自动分析 SQL方言 数据处理 机器学习 语言模型

📋 核心要点

  1. 现有的Text-to-SQL方法在处理企业级数据库时面临复杂的模式和SQL方言问题,导致准确性不足。
  2. ProSPy框架通过四个阶段的推理过程,结合SQL的高效性和Python的灵活性,解决了企业数据库中的分析挑战。
  3. 实验结果显示,ProSPy在多个数据集上超越了强基线,表现出对SQL方言变化的鲁棒性,且在模式召回与精度之间取得了良好的平衡。

📝 摘要(中文)

大型语言模型在Text-to-SQL系统中取得了显著进展,但在企业级数据库应用中仍面临诸多挑战。现实数据库通常具有庞大且异构的模式、不完整的元数据、特定方言的SQL语法以及复杂的分析问题,这些都难以通过单一SQL查询解决。为此,本文提出了ProSPy,一个基于分析驱动的SQL-Python代理框架,旨在应对这些挑战。ProSPy将推理过程分为四个阶段:首先通过自动分析提取细粒度数据证据,逐步将大型模式修剪为与任务相关的上下文,通过方言无关的SQL接口获取中间视图,最后利用Python进行灵活的下游分析。实验结果表明,ProSPy在Spider 2.0-Lite和Spider 2.0-Snow数据集上均优于强基线,执行准确率达到60.15%和60.51%。

🔬 方法详解

问题定义:本文旨在解决企业级Text-to-SQL系统在面对复杂数据库时的准确性和灵活性问题。现有方法在处理大型异构模式和方言特定SQL时存在显著不足,导致无法有效应对复杂查询。

核心思路:ProSPy通过分析驱动的方式,分阶段提取和处理数据,逐步缩小任务相关的上下文,从而提高查询的准确性和灵活性。这样的设计使得系统能够在不依赖不可靠元数据的情况下,灵活应对多种SQL方言。

技术框架:ProSPy的整体架构分为四个主要阶段:1) 自动分析以提取细粒度数据证据;2) 将大型模式逐步修剪为任务相关的上下文;3) 通过方言无关的SQL接口获取中间视图;4) 利用Python进行灵活的下游分析。

关键创新:ProSPy的主要创新在于其分析驱动的推理过程和方言无关的SQL接口设计,这与现有方法的单一SQL查询方式形成鲜明对比,显著提升了系统的鲁棒性和灵活性。

关键设计:在设计中,ProSPy采用了自动分析技术来提取数据证据,并通过逐步修剪的方式优化查询上下文,确保在多种SQL方言下均能保持高效的执行准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Spider 2.0-Lite和Spider 2.0-Snow数据集上的实验结果显示,ProSPy在执行准确率上分别达到了60.15%和60.51%,显著优于现有强基线,且在SQL方言变化中表现出良好的鲁棒性,展示了其在模式召回与精度之间的优良平衡。

🎯 应用场景

ProSPy框架在企业级数据库的文本到SQL转换中具有广泛的应用潜力,能够帮助企业更高效地进行数据分析和决策支持。其灵活性和鲁棒性使其适用于多种行业的数据处理需求,未来可能推动更多智能化的数据管理解决方案的实现。

📄 摘要(原文)

Large language models have substantially advanced Text-to-SQL systems, yet applying them to enterprise-scale databases remains challenging. Real-world databases often contain large and heterogeneous schemas, incomplete metadata, dialect-specific SQL syntax, and complex analytical questions that are difficult to solve with a single SQL query. To address these challenges, we propose ProSPy, a Profiling-driven SQL--Python agentic framework for enterprise-scale Text-to-SQL. ProSPy structures the reasoning process into four stages: it first extracts fine-grained data evidence through automatic profiling, progressively prunes large schemas into task-relevant contexts, fetches intermediate views through a dialect-agnostic SQL interface, and finally performs flexible downstream analysis with Python. This design combines the efficiency of SQL over large databases with the flexibility of Python-based analysis, while reducing reliance on unreliable metadata and improving robustness across SQL dialects. Experiments on Spider 2.0-Lite and Spider 2.0-Snow show that ProSPy consistently outperforms strong baselines with both open-source and proprietary models, achieving execution accuracies of 60.15% and 60.51% with Claude-4.5-Opus, without majority voting. Further analysis shows that ProSPy is robust to SQL dialect variations and achieves a favorable trade-off between schema recall and precision.