SQLForge: Synthesizing Reliable and Diverse Data to Enhance Text-to-SQL Reasoning in LLMs
作者: Yu Guo, Dong Jin, Shenghao Ye, Shuangwu Chen, Jian Yang, Xiaobin Tan
分类: cs.CL
发布日期: 2025-05-19
备注: 12 pages, 7 figures, accepted to ACL Findings 2025
期刊: SQLForge: Synthesizing Reliable and Diverse Data to Enhance Text-to-SQL Reasoning in LLMs (Guo et al., Findings 2025)
DOI: 10.18653/v1/2025.findings-acl.443
💡 一句话要点
SQLForge:合成可靠且多样的数据以增强LLM在Text-to-SQL推理中的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Text-to-SQL 大型语言模型 数据合成 数据增强 SQL语法约束 反向翻译 数据域探索
📋 核心要点
- 现有开源Text-to-SQL模型与闭源模型存在显著性能差距,限制了LLM在该领域的应用。
- SQLForge通过SQL语法约束、反向翻译和数据域探索,合成可靠且多样的数据。
- SQLForge-LM在Spider和BIRD基准测试中达到开源模型最佳性能,显著缩小了与闭源模型的差距。
📝 摘要(中文)
大型语言模型(LLMs)在text-to-SQL推理任务中展现出巨大的潜力,但现有开源模型与闭源模型之间仍然存在显著的性能差距。本文介绍了一种名为SQLForge的新方法,用于合成可靠且多样的数据,以增强LLMs在text-to-SQL推理中的能力。我们通过SQL语法约束和SQL到问题的反向翻译来提高数据可靠性,从而在结构和语义层面确保数据逻辑。我们还提出了一种SQL模板丰富和迭代数据域探索机制,以提高数据多样性。基于增强的数据,我们对各种具有不同架构和参数大小的开源模型进行微调,从而产生了一系列名为SQLForge-LM的模型。SQLForge-LM在广泛认可的Spider和BIRD基准测试中实现了开源模型的最佳性能。具体而言,SQLForge-LM在Spider Dev上实现了85.7%的EX准确率,在BIRD Dev上实现了59.8%的EX准确率,显著缩小了与闭源方法的性能差距。
🔬 方法详解
问题定义:论文旨在解决text-to-SQL任务中,开源LLM模型性能与闭源模型差距大的问题。现有方法生成的训练数据质量和多样性不足,导致模型泛化能力受限。
核心思路:SQLForge的核心思路是通过数据合成来增强训练数据,提高模型的text-to-SQL推理能力。关键在于保证合成数据的可靠性和多样性,从而提升模型的泛化能力和鲁棒性。
技术框架:SQLForge包含以下主要模块:1) SQL语法约束:确保生成的SQL语句符合语法规则。2) SQL到问题的反向翻译:验证SQL语句的语义逻辑是否合理。3) SQL模板丰富:扩展SQL模板,增加数据多样性。4) 迭代数据域探索:探索新的数据域,进一步提高数据多样性。通过这些模块,生成高质量的训练数据,并用于微调LLM。
关键创新:SQLForge的关键创新在于其数据合成方法,它结合了SQL语法约束、反向翻译和数据域探索,从而生成既可靠又多样的数据。与传统的数据增强方法相比,SQLForge能够更有效地提高模型的text-to-SQL推理能力。
关键设计:SQLForge在SQL语法约束方面,使用了预定义的SQL语法规则。在SQL到问题的反向翻译方面,使用了基于规则或模型的生成方法。在SQL模板丰富方面,使用了基于规则的模板扩展方法。在迭代数据域探索方面,使用了基于主动学习或强化学习的方法。具体的参数设置和损失函数选择取决于所使用的LLM架构和训练策略。
🖼️ 关键图片
📊 实验亮点
SQLForge-LM在Spider Dev数据集上实现了85.7%的EX准确率,在BIRD Dev数据集上实现了59.8%的EX准确率,均达到了开源模型的最佳水平。与之前的开源模型相比,SQLForge-LM在性能上取得了显著提升,并缩小了与闭源模型的差距,证明了SQLForge方法的有效性。
🎯 应用场景
SQLForge的研究成果可应用于智能问答系统、数据库查询优化、以及自然语言驱动的数据分析等领域。通过提高LLM的text-to-SQL推理能力,可以实现更自然、更高效的人机交互,并为企业提供更智能的数据分析解决方案。未来,该技术有望进一步扩展到更复杂的数据库和查询场景。
📄 摘要(原文)
Large Language models (LLMs) have demonstrated significant potential in text-to-SQL reasoning tasks, yet a substantial performance gap persists between existing open-source models and their closed-source counterparts. In this paper, we introduce SQLForge, a novel approach for synthesizing reliable and diverse data to enhance text-to-SQL reasoning in LLMs. We improve data reliability through SQL syntax constraints and SQL-to-question reverse translation, ensuring data logic at both structural and semantic levels. We also propose an SQL template enrichment and iterative data domain exploration mechanism to boost data diversity. Building on the augmented data, we fine-tune a variety of open-source models with different architectures and parameter sizes, resulting in a family of models termed SQLForge-LM. SQLForge-LM achieves the state-of-the-art performance on the widely recognized Spider and BIRD benchmarks among the open-source models. Specifically, SQLForge-LM achieves EX accuracy of 85.7% on Spider Dev and 59.8% on BIRD Dev, significantly narrowing the performance gap with closed-source methods.