OmniSQL: Synthesizing High-quality Text-to-SQL Data at Scale
作者: Haoyang Li, Shang Wu, Xiaokang Zhang, Xinmei Huang, Jing Zhang, Fuxin Jiang, Shuai Wang, Tieying Zhang, Jianjun Chen, Rui Shi, Hong Chen, Cuiping Li
分类: cs.CL, cs.DB
发布日期: 2025-03-04 (更新: 2025-07-13)
💡 一句话要点
提出OmniSQL框架,大规模合成高质量Text-to-SQL数据,并训练开源模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Text-to-SQL 数据合成 大型语言模型 开源模型 数据库查询
📋 核心要点
- 现有Text-to-SQL方法依赖闭源LLM或受限于公开数据集,导致成本高、隐私风险和泛化性差。
- 提出OmniSQL框架,通过自动合成大规模高质量数据集SynSQL-2.5M,训练开源Text-to-SQL模型。
- OmniSQL在九个数据集上达到SOTA性能,与GPT-4o和DeepSeek-V3等模型相比,性能相当甚至超越。
📝 摘要(中文)
Text-to-SQL任务旨在将自然语言问题转化为SQL查询,对于非专业人士与数据库交互至关重要。尽管大型语言模型(LLMs)的最新进展显著提升了text-to-SQL的性能,但现有方法在实际应用中面临显著局限。基于提示的方法通常依赖于闭源LLMs,成本高昂,存在隐私问题,且缺乏定制性。另一方面,基于微调的方法由于公开训练数据的覆盖范围有限,泛化能力较差。为了克服这些挑战,我们提出了一种新颖且可扩展的text-to-SQL数据合成框架,用于自动合成大规模、高质量和多样化的数据集,无需大量人工干预。利用该框架,我们推出了SynSQL-2.5M,这是首个百万级text-to-SQL数据集,包含超过16,000个合成数据库的250万个样本。每个样本包括一个数据库、SQL查询、自然语言问题和思维链(CoT)解决方案。利用SynSQL-2.5M,我们开发了OmniSQL,一个强大的开源text-to-SQL模型,提供7B、14B和32B三种尺寸。在九个数据集上的广泛评估表明,OmniSQL实现了最先进的性能,匹配或超过了领先的闭源和开源LLMs,包括GPT-4o和DeepSeek-V3,尽管其规模较小。我们发布所有代码、数据集和模型,以支持进一步的研究。
🔬 方法详解
问题定义:Text-to-SQL任务旨在将自然语言问题转化为SQL查询。现有方法主要存在两个痛点:一是依赖闭源LLM,成本高昂且存在隐私问题;二是依赖公开数据集进行微调,但公开数据集规模有限,导致模型泛化能力不足。
核心思路:论文的核心思路是通过自动数据合成来解决训练数据不足的问题。通过构建一个可扩展的数据合成框架,生成大规模、高质量、多样化的Text-to-SQL数据集,从而训练出高性能的开源模型。这样可以避免对闭源LLM的依赖,并提高模型的泛化能力。
技术框架:OmniSQL框架主要包含以下几个阶段:1) 数据库模式生成:自动生成多样化的数据库模式;2) SQL查询生成:根据数据库模式生成SQL查询;3) 自然语言问题生成:根据SQL查询和数据库模式生成对应的自然语言问题;4) 思维链(CoT)生成:生成SQL查询的推理过程。整个流程自动化,无需大量人工干预。
关键创新:最重要的技术创新点在于大规模高质量Text-to-SQL数据的自动合成。与现有方法依赖人工标注或小规模数据增强不同,OmniSQL框架能够生成百万级别的数据集,并且保证数据的质量和多样性。此外,开源模型的发布也打破了闭源LLM的垄断。
关键设计:在数据合成过程中,论文设计了多种策略来保证数据的质量和多样性,例如:1) 使用不同的模板生成SQL查询;2) 使用不同的自然语言生成模型生成问题;3) 对生成的数据进行过滤和清洗。在模型训练方面,使用了标准的Transformer架构,并针对Text-to-SQL任务进行了优化。
🖼️ 关键图片
📊 实验亮点
OmniSQL在九个Text-to-SQL数据集上进行了广泛的评估,实验结果表明,OmniSQL在性能上与领先的闭源和开源LLMs(如GPT-4o和DeepSeek-V3)相当甚至超越,同时模型规模更小。例如,在某些数据集上,OmniSQL的准确率超过了GPT-4o,证明了其在大规模数据合成方面的有效性。
🎯 应用场景
OmniSQL具有广泛的应用前景,可用于构建智能客服系统、数据分析平台、商业智能工具等。它能够帮助非专业人士更方便地与数据库进行交互,从而提高工作效率和决策质量。此外,开源的特性也使得研究人员可以基于OmniSQL进行进一步的研究和开发,推动Text-to-SQL技术的发展。
📄 摘要(原文)
Text-to-SQL, the task of translating natural language questions into SQL queries, plays a crucial role in enabling non-experts to interact with databases. While recent advancements in large language models (LLMs) have significantly enhanced text-to-SQL performance, existing approaches face notable limitations in real-world text-to-SQL applications. Prompting-based methods often depend on closed-source LLMs, which are expensive, raise privacy concerns, and lack customization. Fine-tuning-based methods, on the other hand, suffer from poor generalizability due to the limited coverage of publicly available training data. To overcome these challenges, we propose a novel and scalable text-to-SQL data synthesis framework for automatically synthesizing large-scale, high-quality, and diverse datasets without extensive human intervention. Using this framework, we introduce SynSQL-2.5M, the first million-scale text-to-SQL dataset, containing 2.5 million samples spanning over 16,000 synthetic databases. Each sample includes a database, SQL query, natural language question, and chain-of-thought (CoT) solution. Leveraging SynSQL-2.5M, we develop OmniSQL, a powerful open-source text-to-SQL model available in three sizes: 7B, 14B, and 32B. Extensive evaluations across nine datasets demonstrate that OmniSQL achieves state-of-the-art performance, matching or surpassing leading closed-source and open-source LLMs, including GPT-4o and DeepSeek-V3, despite its smaller size. We release all code, datasets, and models to support further research.