JOLT-SQL: Joint Loss Tuning of Text-to-SQL with Confusion-aware Noisy Schema Sampling

作者: Jinwang Song, Hongying Zan, Kunli Zhang, Lingling Mu, Yingjie Han, Haobo Hua, Min Peng

分类: cs.CL

发布日期: 2025-05-20 (更新: 2025-09-23)

备注: Accepted to EMNLP 2025 Main Conference

🔗 代码/项目: GITHUB

💡 一句话要点

JOLT-SQL：通过混淆感知噪声模式采样联合优化Text-to-SQL的损失函数。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Text-to-SQL 监督微调 模式链接 噪声鲁棒性 自然语言处理 数据库查询 深度学习

📋 核心要点

现有Text-to-SQL的SFT方法存在复杂多阶段流程，且对噪声模式信息的鲁棒性较差。
JOLT-SQL通过统一损失函数联合优化模式链接和SQL生成，简化流程并提升鲁棒性。
实验表明，JOLT-SQL在Spider和BIRD数据集上取得了SOTA的执行准确率，并提高了效率。

📝 摘要（中文）

本文提出JOLT-SQL，一个简化的单阶段监督微调（SFT）框架，通过统一损失函数联合优化模式链接和SQL生成，以解决Text-to-SQL任务中复杂多阶段流程和对噪声模式信息鲁棒性差的挑战。JOLT-SQL采用判别式模式链接，通过局部双向注意力增强，以及一种混淆感知噪声模式采样策略，该策略具有选择性注意力，以提高在噪声模式条件下的鲁棒性。在Spider和BIRD基准测试上的实验表明，JOLT-SQL在同等规模的开源模型中实现了最先进的执行准确率，同时显著提高了训练和推理效率。代码已开源。

🔬 方法详解

问题定义：Text-to-SQL旨在将自然语言映射到SQL查询。现有的监督微调方法通常采用复杂的多阶段流程，并且在面对噪声模式信息时鲁棒性较差，影响了模型的性能和泛化能力。

核心思路：JOLT-SQL的核心思路是通过单阶段的监督微调，联合优化模式链接和SQL生成，从而简化流程并提高模型在噪声模式下的鲁棒性。通过统一的损失函数，模型可以同时学习如何正确地链接模式信息以及如何生成正确的SQL查询。

技术框架：JOLT-SQL是一个单阶段的SFT框架，主要包含以下几个模块：1) 判别式模式链接模块，用于将自然语言中的实体与数据库模式中的表和列进行匹配；2) 局部双向注意力机制，用于增强模式链接模块的性能；3) 混淆感知噪声模式采样策略，用于提高模型在噪声模式下的鲁棒性；4) SQL生成模块，用于根据链接的模式信息生成SQL查询。整个框架通过统一的损失函数进行端到端训练。

关键创新：JOLT-SQL的关键创新在于：1) 提出了一个简化的单阶段SFT框架，避免了复杂的多阶段流程；2) 引入了混淆感知噪声模式采样策略，提高了模型在噪声模式下的鲁棒性；3) 通过局部双向注意力机制增强了模式链接的性能。与现有方法相比，JOLT-SQL更加高效和鲁棒。

关键设计：在模式链接模块中，使用了局部双向注意力机制来更好地捕捉自然语言和模式信息之间的关系。在噪声模式采样策略中，设计了一种混淆感知机制，用于识别和过滤掉噪声模式信息。损失函数的设计采用了联合优化的方式，同时考虑了模式链接和SQL生成的准确性。具体的参数设置和网络结构细节可以在论文的实验部分找到。

🖼️ 关键图片

📊 实验亮点

JOLT-SQL在Spider和BIRD基准测试中取得了显著的成果。在同等规模的开源模型中，JOLT-SQL实现了最先进的执行准确率。此外，JOLT-SQL还显著提高了训练和推理效率，使得模型更易于部署和应用。这些实验结果充分证明了JOLT-SQL的有效性和优越性。

🎯 应用场景

JOLT-SQL可应用于各种需要将自然语言转换为SQL查询的场景，例如智能数据库助手、自动数据分析和报告生成等。该研究能够提升Text-to-SQL模型的准确性和鲁棒性，降低开发和维护成本，具有广泛的应用前景和实际价值。未来可以进一步探索其在更复杂和更大规模数据集上的应用。

📄 摘要（原文）

Text-to-SQL, which maps natural language to SQL queries, has benefited greatly from recent advances in Large Language Models (LLMs). While LLMs offer various paradigms for this task, including prompting and supervised fine-tuning (SFT), SFT approaches still face challenges such as complex multi-stage pipelines and poor robustness to noisy schema information. To address these limitations, we present JOLT-SQL, a streamlined single-stage SFT framework that jointly optimizes schema linking and SQL generation via a unified loss. JOLT-SQL employs discriminative schema linking, enhanced by local bidirectional attention, alongside a confusion-aware noisy schema sampling strategy with selective attention to improve robustness under noisy schema conditions. Experiments on the Spider and BIRD benchmarks demonstrate that JOLT-SQL achieves state-of-the-art execution accuracy among comparable-size open-source models, while significantly improving both training and inference efficiency. Our code is available at https://github.com/Songjw133/JOLT-SQL.

JOLT-SQL: Joint Loss Tuning of Text-to-SQL with Confusion-aware Noisy Schema Sampling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理