OmniSQL: Synthesizing High-quality Text-to-SQL Data at Scale

作者: Haoyang Li, Shang Wu, Xiaokang Zhang, Xinmei Huang, Jing Zhang, Fuxin Jiang, Shuai Wang, Tieying Zhang, Jianjun Chen, Rui Shi, Hong Chen, Cuiping Li

分类: cs.CL, cs.DB

发布日期: 2025-03-04 (更新: 2025-07-13)

💡 一句话要点

提出OmniSQL框架，大规模合成高质量Text-to-SQL数据，并训练开源模型。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Text-to-SQL 数据合成 大型语言模型 开源模型 数据库查询

📋 核心要点

现有Text-to-SQL方法依赖闭源LLM或受限于公开数据集，导致成本高、隐私风险和泛化性差。
提出OmniSQL框架，通过自动合成大规模高质量数据集SynSQL-2.5M，训练开源Text-to-SQL模型。
OmniSQL在九个数据集上达到SOTA性能，与GPT-4o和DeepSeek-V3等模型相比，性能相当甚至超越。

📝 摘要（中文）

Text-to-SQL任务旨在将自然语言问题转化为SQL查询，对于非专业人士与数据库交互至关重要。尽管大型语言模型（LLMs）的最新进展显著提升了text-to-SQL的性能，但现有方法在实际应用中面临显著局限。基于提示的方法通常依赖于闭源LLMs，成本高昂，存在隐私问题，且缺乏定制性。另一方面，基于微调的方法由于公开训练数据的覆盖范围有限，泛化能力较差。为了克服这些挑战，我们提出了一种新颖且可扩展的text-to-SQL数据合成框架，用于自动合成大规模、高质量和多样化的数据集，无需大量人工干预。利用该框架，我们推出了SynSQL-2.5M，这是首个百万级text-to-SQL数据集，包含超过16,000个合成数据库的250万个样本。每个样本包括一个数据库、SQL查询、自然语言问题和思维链（CoT）解决方案。利用SynSQL-2.5M，我们开发了OmniSQL，一个强大的开源text-to-SQL模型，提供7B、14B和32B三种尺寸。在九个数据集上的广泛评估表明，OmniSQL实现了最先进的性能，匹配或超过了领先的闭源和开源LLMs，包括GPT-4o和DeepSeek-V3，尽管其规模较小。我们发布所有代码、数据集和模型，以支持进一步的研究。

🔬 方法详解

问题定义：Text-to-SQL任务旨在将自然语言问题转化为SQL查询。现有方法主要存在两个痛点：一是依赖闭源LLM，成本高昂且存在隐私问题；二是依赖公开数据集进行微调，但公开数据集规模有限，导致模型泛化能力不足。

核心思路：论文的核心思路是通过自动数据合成来解决训练数据不足的问题。通过构建一个可扩展的数据合成框架，生成大规模、高质量、多样化的Text-to-SQL数据集，从而训练出高性能的开源模型。这样可以避免对闭源LLM的依赖，并提高模型的泛化能力。

技术框架：OmniSQL框架主要包含以下几个阶段：1) 数据库模式生成：自动生成多样化的数据库模式；2) SQL查询生成：根据数据库模式生成SQL查询；3) 自然语言问题生成：根据SQL查询和数据库模式生成对应的自然语言问题；4) 思维链（CoT）生成：生成SQL查询的推理过程。整个流程自动化，无需大量人工干预。

关键创新：最重要的技术创新点在于大规模高质量Text-to-SQL数据的自动合成。与现有方法依赖人工标注或小规模数据增强不同，OmniSQL框架能够生成百万级别的数据集，并且保证数据的质量和多样性。此外，开源模型的发布也打破了闭源LLM的垄断。

关键设计：在数据合成过程中，论文设计了多种策略来保证数据的质量和多样性，例如：1) 使用不同的模板生成SQL查询；2) 使用不同的自然语言生成模型生成问题；3) 对生成的数据进行过滤和清洗。在模型训练方面，使用了标准的Transformer架构，并针对Text-to-SQL任务进行了优化。

🖼️ 关键图片

📊 实验亮点

OmniSQL在九个Text-to-SQL数据集上进行了广泛的评估，实验结果表明，OmniSQL在性能上与领先的闭源和开源LLMs（如GPT-4o和DeepSeek-V3）相当甚至超越，同时模型规模更小。例如，在某些数据集上，OmniSQL的准确率超过了GPT-4o，证明了其在大规模数据合成方面的有效性。

🎯 应用场景

OmniSQL具有广泛的应用前景，可用于构建智能客服系统、数据分析平台、商业智能工具等。它能够帮助非专业人士更方便地与数据库进行交互，从而提高工作效率和决策质量。此外，开源的特性也使得研究人员可以基于OmniSQL进行进一步的研究和开发，推动Text-to-SQL技术的发展。

📄 摘要（原文）

Text-to-SQL, the task of translating natural language questions into SQL queries, plays a crucial role in enabling non-experts to interact with databases. While recent advancements in large language models (LLMs) have significantly enhanced text-to-SQL performance, existing approaches face notable limitations in real-world text-to-SQL applications. Prompting-based methods often depend on closed-source LLMs, which are expensive, raise privacy concerns, and lack customization. Fine-tuning-based methods, on the other hand, suffer from poor generalizability due to the limited coverage of publicly available training data. To overcome these challenges, we propose a novel and scalable text-to-SQL data synthesis framework for automatically synthesizing large-scale, high-quality, and diverse datasets without extensive human intervention. Using this framework, we introduce SynSQL-2.5M, the first million-scale text-to-SQL dataset, containing 2.5 million samples spanning over 16,000 synthetic databases. Each sample includes a database, SQL query, natural language question, and chain-of-thought (CoT) solution. Leveraging SynSQL-2.5M, we develop OmniSQL, a powerful open-source text-to-SQL model available in three sizes: 7B, 14B, and 32B. Extensive evaluations across nine datasets demonstrate that OmniSQL achieves state-of-the-art performance, matching or surpassing leading closed-source and open-source LLMs, including GPT-4o and DeepSeek-V3, despite its smaller size. We release all code, datasets, and models to support further research.

OmniSQL: Synthesizing High-quality Text-to-SQL Data at Scale

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理