Cost-Aware Text-to-SQL: An Empirical Study of Cloud Compute Costs for LLM-Generated Queries
作者: Saurabh Deochake, Debajyoti Mukhopadhyay
分类: cs.DB, cs.AI, cs.DC
发布日期: 2025-12-26
💡 一句话要点
首次系统评估LLM生成SQL查询的云计算成本,揭示效率与成本优化差异
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Text-to-SQL 大型语言模型 云计算成本 数据仓库 查询优化
📋 核心要点
- 现有Text-to-SQL评估侧重于准确率和执行时间,忽略了云数据仓库中LLM生成SQL查询的实际计算成本。
- 通过系统评估六个先进LLM在Google BigQuery上的查询成本,分析字节处理量、slot利用率等指标。
- 实验发现推理模型在保证准确率的同时显著降低字节处理量,并揭示执行时间与成本优化之间的弱相关性。
📝 摘要(中文)
本文首次系统性地评估了大型语言模型(LLM)驱动的Text-to-SQL系统在云数据仓库上的计算成本。尽管这些系统在标准基准测试中表现出高准确率,但现有的效率指标(如Valid Efficiency Score,VES)侧重于执行时间,而忽略了云计算的实际消耗成本。我们使用StackOverflow数据集(230GB)在Google BigQuery上评估了六个最先进的LLM,执行了180个查询,并测量了处理的字节数、slot利用率和估计成本。分析表明:(1)推理模型在保持同等正确率(96.7%-100%)的同时,处理的字节数减少了44.5%;(2)执行时间与查询成本的相关性较弱(r=0.16),表明速度优化并不意味着成本优化;(3)模型之间的成本差异高达3.4倍,标准模型产生的异常值超过每查询36GB。我们识别了常见的低效模式,包括缺少分区过滤器和不必要的全表扫描,并为成本敏感的企业环境提供了部署指南。
🔬 方法详解
问题定义:论文旨在解决LLM驱动的Text-to-SQL系统中,现有评估方法忽略云环境下的实际计算成本问题。现有方法主要关注查询的准确性和执行速度,而忽略了在云数据仓库中运行这些查询所消耗的资源,这对于成本敏感的企业环境来说是一个重要的考量因素。
核心思路:论文的核心思路是通过系统性地测量和分析LLM生成的SQL查询在云数据仓库(Google BigQuery)中的实际计算成本,从而揭示不同LLM在成本效率方面的差异,并识别导致高成本的常见模式。这种方法旨在弥补现有评估指标的不足,为LLM在Text-to-SQL任务中的实际部署提供更全面的指导。
技术框架:论文的技术框架主要包括以下几个阶段: 1. 模型选择:选择六个最先进的LLM,包括标准模型和推理模型。 2. 数据集准备:使用StackOverflow数据集(230GB)作为SQL查询的数据来源。 3. 查询执行:在Google BigQuery上执行180个SQL查询。 4. 成本测量:测量每个查询处理的字节数、slot利用率和估计成本。 5. 数据分析:分析不同模型之间的成本差异,识别高成本查询的模式,并评估执行时间与成本之间的相关性。
关键创新:论文的关键创新在于首次系统性地评估了LLM生成SQL查询的云计算成本。与现有研究只关注准确率和执行时间不同,本文关注的是实际的资源消耗,这对于在云环境中部署LLM驱动的Text-to-SQL系统至关重要。此外,论文还识别了导致高成本的常见模式,并为成本敏感的企业环境提供了部署指南。
关键设计:论文的关键设计包括: 1. 成本指标选择:选择处理的字节数、slot利用率和估计成本作为评估指标,这些指标能够反映LLM在云数据仓库中的资源消耗情况。 2. 实验设计:设计了包含180个SQL查询的实验,覆盖了不同的查询类型和复杂度,从而能够全面评估LLM的成本效率。 3. 数据分析方法:使用统计分析方法评估不同模型之间的成本差异,并识别高成本查询的模式。
📊 实验亮点
实验结果表明,推理模型在保持96.7%-100%正确率的同时,处理的字节数比标准模型减少44.5%。执行时间与查询成本的相关性仅为0.16,表明速度优化不一定带来成本优化。不同模型间成本差异高达3.4倍,部分标准模型单次查询成本超过36GB,凸显了成本评估的重要性。
🎯 应用场景
该研究成果可应用于企业级数据分析平台,帮助企业选择更具成本效益的Text-to-SQL模型,优化SQL查询,降低云计算成本。通过识别和避免低效查询模式,企业可以更有效地利用云资源,提升数据分析效率,并为未来的LLM优化方向提供指导。
📄 摘要(原文)
Text-to-SQL systems powered by Large Language Models (LLMs) achieve high accuracy on standard benchmarks, yet existing efficiency metrics such as the Valid Efficiency Score (VES) measure execution time rather than the consumption-based costs of cloud data warehouses. This paper presents the first systematic evaluation of cloud compute costs for LLM-generated SQL queries. We evaluate six state-of-the-art LLMs across 180 query executions on Google BigQuery using the StackOverflow dataset (230GB), measuring bytes processed, slot utilization, and estimated cost. Our analysis yields three key findings: (1) reasoning models process 44.5% fewer bytes than standard models while maintaining equivalent correctness (96.7%-100%); (2) execution time correlates weakly with query cost (r=0.16), indicating that speed optimization does not imply cost optimization; and (3) models exhibit up to 3.4x cost variance, with standard models producing outliers exceeding 36GB per query. We identify prevalent inefficiency patterns including missing partition filters and unnecessary full-table scans, and provide deployment guidelines for cost-sensitive enterprise environments.