Bridging the Gap: Transforming Natural Language Questions into SQL Queries via Abstract Query Pattern and Contextual Schema Markup

📄 arXiv: 2502.14682v1 📥 PDF

作者: Yonghui Kong, Hongbing Hu, Dan Zhang, Siyuan Chai, Fan Zhang, Wei Wang

分类: cs.CL

发布日期: 2025-02-20


💡 一句话要点

PAS-SQL通过抽象查询模式和上下文模式标记,提升Text-to-SQL在复杂问题上的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Text-to-SQL 自然语言查询 大型语言模型 抽象查询模式 上下文模式标记 数据库查询 语义理解

📋 核心要点

  1. 现有Text-to-SQL方法在处理复杂问题时,与人类表现存在结构映射和词汇映射的显著差距。
  2. PAS-SQL通过抽象查询模式(AQP)提取问题结构,并利用上下文模式标记(CSM)关联数据库信息,缩小差距。
  3. 实验表明,PAS-SQL在Spider数据集上执行准确率达到87.9%,在BIRD数据集上达到64.67%,均取得领先成果。

📝 摘要(中文)

大型语言模型在Text-to-SQL等任务中表现出色,这归功于其强大的上下文学习能力,并逐渐成为Text-to-SQL的主流方法。然而,这些方法与人类的表现相比仍存在显著差距,尤其是在处理复杂问题时。随着问题复杂性的增加,问题与SQL之间的差距也随之增大。我们发现了两个重要的差距:结构映射差距和词汇映射差距。为了解决这两个差距,我们提出了一种基于LLM的高效SQL生成流程PAS-SQL,它通过抽象查询模式(AQP)和上下文模式标记(CSM)来缩小差距。AQP旨在通过删除数据库相关信息来获得问题的结构模式,从而找到结构相似的示例。CSM旨在将问题中与数据库相关的文本跨度与数据库中的特定表或列相关联,从而缓解词汇映射差距。在Spider和BIRD数据集上的实验结果证明了我们提出的方法的有效性。具体而言,PAS-SQL + GPT-4o在Spider基准测试中取得了87.9%的执行准确率,刷新了当前最佳水平,并在BIRD数据集中取得了64.67%的领先结果。

🔬 方法详解

问题定义:论文旨在解决Text-to-SQL任务中,大型语言模型在处理复杂问题时存在的结构映射和词汇映射差距。现有方法在复杂问题上表现不佳,难以准确理解问题的深层结构和数据库schema的关联,导致SQL生成错误率较高。

核心思路:论文的核心思路是通过解耦问题结构和数据库信息,分别进行处理。首先,通过抽象查询模式(AQP)提取问题的结构信息,忽略数据库的具体细节。然后,利用上下文模式标记(CSM)将问题中的词汇与数据库schema进行关联。这种解耦的方式有助于模型更好地理解问题的本质,并生成更准确的SQL查询。

技术框架:PAS-SQL包含两个主要模块:抽象查询模式(AQP)和上下文模式标记(CSM)。首先,AQP模块接收自然语言问题,并将其转换为抽象查询模式,该模式仅保留问题的结构信息。然后,CSM模块接收原始问题和数据库schema,并将问题中的词汇与schema中的表和列进行关联。最后,将抽象查询模式和上下文模式标记输入到大型语言模型中,生成SQL查询。

关键创新:论文的关键创新在于提出了抽象查询模式(AQP)和上下文模式标记(CSM)两种技术,有效地缓解了结构映射和词汇映射差距。AQP通过提取问题的结构信息,使得模型能够更好地理解问题的本质。CSM通过将问题中的词汇与数据库schema进行关联,使得模型能够更好地理解数据库的语义信息。

关键设计:AQP模块通过一系列规则将问题中的数据库相关信息替换为占位符,从而提取问题的结构信息。CSM模块使用命名实体识别和链接技术,将问题中的词汇与数据库schema中的表和列进行关联。具体参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

PAS-SQL在Spider数据集上取得了87.9%的执行准确率,刷新了当前最佳水平,相比之前的SOTA模型有显著提升。在更具挑战性的BIRD数据集上,PAS-SQL也取得了64.67%的领先结果,证明了其在复杂Text-to-SQL任务上的有效性。

🎯 应用场景

该研究成果可应用于智能问答系统、数据库查询工具、数据分析平台等领域,能够帮助用户通过自然语言更便捷地查询和分析数据,降低数据库操作的门槛,提高数据利用效率,具有广泛的应用前景。

📄 摘要(原文)

Large language models have demonstrated excellent performance in many tasks, including Text-to-SQL, due to their powerful in-context learning capabilities. They are becoming the mainstream approach for Text-to-SQL. However, these methods still have a significant gap compared to human performance, especially on complex questions. As the complexity of questions increases, the gap between questions and SQLs increases. We identify two important gaps: the structural mapping gap and the lexical mapping gap. To tackle these two gaps, we propose PAS-SQL, an efficient SQL generation pipeline based on LLMs, which alleviates gaps through Abstract Query Pattern (AQP) and Contextual Schema Markup (CSM). AQP aims to obtain the structural pattern of the question by removing database-related information, which enables us to find structurally similar demonstrations. CSM aims to associate database-related text span in the question with specific tables or columns in the database, which alleviates the lexical mapping gap. Experimental results on the Spider and BIRD datasets demonstrate the effectiveness of our proposed method. Specifically, PAS-SQL + GPT-4o sets a new state-of-the-art on the Spider benchmark with an execution accuracy of 87.9\%, and achieves leading results on the BIRD dataset with an execution accuracy of 64.67\%.