SQaLe: A Large Text-to-SQL Corpus Grounded in Real Schemas
作者: Cornelius Wolff, Daniel Gomm, Madelon Hulsebos
分类: cs.IR, cs.CL, cs.LG
发布日期: 2026-02-28
💡 一句话要点
提出SQaLe:一个基于真实Schema的大规模Text-to-SQL数据集,提升模型泛化能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Text-to-SQL 自然语言处理 数据库查询 数据集生成 Schema理解
📋 核心要点
- 现有的Text-to-SQL模型缺乏足够大规模、具有复杂Schema和查询、领域覆盖广、任务多样的数据集,限制了模型的泛化能力。
- SQaLe通过结合Schema采样、问题合成和SQL构建,构建了一个大规模、半合成的Text-to-SQL数据集,包含517,676个高质量的三元组。
- SQaLe数据集具有真实的Schema大小可变性、多样化的查询模式和自然语言歧义,是目前最真实的Text-to-SQL大规模数据集。
📝 摘要(中文)
本文提出了SQaLe,一个大规模的半合成Text-to-SQL数据集,它构建于从真实世界Schema集合SchemaPile扩展而来的135,875个关系数据库Schema之上。论文建立了一个原则性的生成流程,该流程结合了Schema采样、问题合成和SQL构建,从而生成了517,676个高质量的(问题,Schema,查询)三元组。SQaLe数据集捕捉了真实的Schema大小可变性、多样化的查询模式和自然语言歧义,同时保持了执行有效性。论文分析了SQaLe的内容和特征,并发现与现有的基准和数据集相比,SQaLe是迄今为止最真实的Text-to-SQL大规模数据集。论文还讨论了SQaLe如何实现数据规模化和模型泛化的愿景,以推动Text-to-SQL研究。
🔬 方法详解
问题定义:Text-to-SQL任务旨在将自然语言查询转换为有效的SQL查询。现有方法在处理复杂Schema、领域多样性和自然语言歧义方面存在挑战,并且缺乏足够大规模的数据集来训练具有良好泛化能力的模型。现有数据集的规模和真实性不足以充分训练和评估模型。
核心思路:SQaLe的核心思路是利用半合成的方法,基于真实世界的Schema,通过Schema采样、问题合成和SQL构建,生成大规模、高质量的Text-to-SQL数据集。这种方法能够在控制数据质量的同时,扩展数据集的规模和多样性。
技术框架:SQaLe的生成流程包含以下几个主要阶段:1) Schema采样:从SchemaPile中采样真实世界的数据库Schema,并进行扩展;2) 问题合成:基于采样的Schema,生成自然语言问题,力求覆盖多样化的查询意图和自然语言表达;3) SQL构建:根据问题和Schema,构建对应的SQL查询,并保证查询的有效性。整个流程旨在生成高质量的(问题,Schema,查询)三元组。
关键创新:SQaLe的关键创新在于其半合成的数据生成方法,它结合了真实世界的Schema和自动化的问题与SQL生成,从而在保证数据质量的同时,实现了数据集规模的扩展。此外,SQaLe还特别关注了Schema的复杂性、查询的多样性和自然语言的歧义性,使其更接近真实世界的应用场景。
关键设计:SQaLe的生成流程中,Schema采样策略旨在覆盖不同大小和复杂度的Schema。问题合成阶段采用了多种模板和规则,以生成多样化的自然语言问题。SQL构建阶段则使用了基于规则和约束的方法,以确保生成的SQL查询的有效性和正确性。具体参数设置和规则的设计细节未在摘要中详细说明。
🖼️ 关键图片
📊 实验亮点
SQaLe数据集包含517,676个高质量的(问题,Schema,查询)三元组,构建于135,875个关系数据库Schema之上。与现有的Text-to-SQL数据集相比,SQaLe具有更大的规模、更真实的Schema和更复杂的问题,是迄今为止最真实的Text-to-SQL大规模数据集。具体性能数据和对比基线未在摘要中给出。
🎯 应用场景
SQaLe数据集可用于训练和评估Text-to-SQL模型,提高模型在真实世界场景中的泛化能力。该数据集能够促进Text-to-SQL技术在智能助手、数据分析、商业智能等领域的应用,使用户能够通过自然语言与数据库进行交互,从而降低数据访问的门槛,提升工作效率。
📄 摘要(原文)
Advances in large language models have accelerated progress in text-to-SQL, methods for converting natural language queries into valid SQL queries. A key bottleneck for developing generalizable text-to-SQL models is the lack of large-scale datasets with sufficient schema and query complexity, domain coverage, and task diversity. We introduce SQaLe: a large-scale semi-synthetic text-to-SQL dataset built on 135,875 relational database schemas expanded from a collection of real-world schemas, SchemaPile. We establish a principled generation pipeline which combines schema sampling, question synthesis, and SQL construction, and produce 517,676 high-quality (question, schema, query) triples. The SQaLe dataset captures realistic schema size variability, diverse query patterns, and natural language ambiguity while maintaining execution validity. We provide an analysis of its contents and characteristics, and find that SQaLe introduces the most realistic large-scale text-to-SQL dataset to date in comparison with existing benchmarks and datasets. We discuss how SQaLe enables our vision for data scaling and model generalization in text-to-SQL research. The dataset is accessible at:this https URL.