Reliable Answers for Recurring Questions: Boosting Text-to-SQL Accuracy with Template Constrained Decoding

作者: Smit Jivani, Sarvam Maheshwari, Sunita Sarawagi

分类: cs.CL, cs.AI, cs.DB, cs.IR

发布日期: 2026-04-30

备注: Project Code: https://github.com/SSLab-CSE-IITB/tecod

期刊: Proceedings of the ACM on Management of Data, Volume 3, Issue 6, 2025, Article 357, Pages 1 - 26

DOI: 10.1145/3769822

💡 一句话要点

提出TeCoD，利用模板约束解码提升Text-to-SQL在复杂场景下的准确率和效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Text-to-SQL 自然语言处理 数据库查询 模板约束解码 大型语言模型

📋 核心要点

现有Text-to-SQL模型在复杂或未见过的数据库模式下，准确率不稳定，容易生成无效SQL，限制了实际应用。
TeCoD利用历史查询的重复模式，将NL-SQL对转化为可复用的模板，并使用自然语言推理模型进行模板选择。
实验表明，TeCoD在匹配查询上，执行准确率比上下文学习高36%，延迟降低2.2倍，显著提升了性能。

📝 摘要（中文）

大型语言模型（LLM）极大地推动了Text-to-SQL生成技术的发展，使得用户能够更轻松地使用自然语言查询结构化数据。然而，由于准确性不稳定以及生成无效SQL的风险，实际部署仍然面临挑战，尤其是在复杂或未见过的模式中。本文介绍了一种名为模板约束解码（TeCoD）的系统，该系统通过利用标记工作负载中查询模式的重复性来解决这些限制。TeCoD将历史NL-SQL对转换为可重用的模板，并引入了一个强大的模板选择模块，该模块使用微调的自然语言推理模型来高效地匹配或拒绝查询。一旦选择了模板，TeCoD通过语法约束解码在SQL生成过程中强制执行它，该解码通过一种新颖的分区策略实现，从而确保句法有效性和效率。总而言之，这些组件产生的执行准确率比上下文学习（ICL）高出36%，并且在匹配的查询上延迟降低了2.2倍。

🔬 方法详解

问题定义：Text-to-SQL任务旨在将自然语言查询转换为可执行的SQL语句。现有方法，特别是基于大型语言模型的方法，在处理复杂或未知的数据库模式时，容易出现准确率下降和生成无效SQL的问题。这些问题阻碍了Text-to-SQL技术在实际场景中的广泛应用。

核心思路：TeCoD的核心思路是利用真实场景中查询模式的重复性。通过将历史的自然语言查询和对应的SQL语句转化为模板，并使用模板约束解码来生成新的SQL语句，从而提高准确率和效率。这种方法假设相似的自然语言查询通常对应相似的SQL结构。

技术框架：TeCoD系统主要包含两个阶段：模板选择和模板约束解码。首先，模板选择模块使用一个微调的自然语言推理（NLI）模型来判断输入的自然语言查询是否与已有的模板匹配。如果匹配，则进入模板约束解码阶段；否则，可能使用其他方法（如标准的大型语言模型）生成SQL。在模板约束解码阶段，系统根据选定的模板，使用语法约束解码生成SQL语句，确保生成的SQL既符合语法规则，又符合模板的结构。

关键创新：TeCoD的关键创新在于模板约束解码和高效的模板选择机制。模板约束解码通过限制SQL的生成空间，避免生成无效SQL，提高准确率。高效的模板选择机制则通过NLI模型快速判断是否可以使用模板，避免了不必要的计算开销。此外，分区策略确保了语法约束解码的效率。

关键设计：模板选择模块使用微调的NLI模型，该模型用于判断自然语言查询和模板之间的关系（匹配或不匹配）。模板约束解码使用语法约束解码，确保生成的SQL语句符合语法规则。分区策略将SQL语法规则分解为多个部分，从而提高解码效率。具体的损失函数和网络结构细节在论文中可能没有详细描述，属于实现细节。

📊 实验亮点

TeCoD在匹配的查询上，执行准确率比上下文学习（ICL）高出36%，并且延迟降低了2.2倍。这些结果表明，TeCoD能够显著提高Text-to-SQL的性能，尤其是在存在重复查询模式的场景下。实验结果验证了模板约束解码的有效性和高效性。

🎯 应用场景

TeCoD可应用于各种需要自然语言查询结构化数据的场景，例如智能客服、商业智能分析、数据库管理等。通过提高Text-to-SQL的准确率和效率，TeCoD可以帮助用户更方便地从数据库中获取所需信息，降低数据分析的门槛，并提升工作效率。未来，该技术有望在金融、医疗、教育等领域得到广泛应用。

📄 摘要（原文）

Large language models (LLMs) have revolutionized Text-to-SQL generation, allowing users to query structured data using natural language with growing ease. Yet, real-world deployment remains challenging, especially in complex or unseen schemas, due to inconsistent accuracy and the risk of generating invalid SQL. We introduce Template Constrained Decoding (TeCoD), a system that addresses these limitations by harnessing the recurrence of query patterns in labeled workloads. TeCoD converts historical NL-SQL pairs into reusable templates and introduces a robust template selection module that uses a fine-tuned natural language inference model to match or reject queries efficiently. Once the template is selected, TeCoD enforces it during SQL generation through grammar-constrained decoding, implemented via a novel partitioned strategy that ensures both syntactic validity and efficiency. Together, these components yield up to 36% higher execution accuracy than in-context learning (ICL) and 2.2x lower latency on matched queries.

Reliable Answers for Recurring Questions: Boosting Text-to-SQL Accuracy with Template Constrained Decoding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理