OpenSearch-SQL: Enhancing Text-to-SQL with Dynamic Few-shot and Consistency Alignment

📄 arXiv: 2502.14913v1 📥 PDF

作者: Xiangjin Xie, Guangwei Xu, Lingyan Zhao, Ruijie Guo

分类: cs.CL, cs.AI, cs.IR

发布日期: 2025-02-19

备注: 15 pages


💡 一句话要点

OpenSearch-SQL:通过动态Few-shot和一致性对齐增强Text-to-SQL性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Text-to-SQL 大型语言模型 多智能体协作 一致性对齐 动态Few-shot

📋 核心要点

  1. 现有Text-to-SQL方法面临框架不完整、指令遵循失败和模型幻觉等挑战,限制了性能提升。
  2. OpenSearch-SQL通过模块化设计和一致性对齐机制,减少指令偏差和幻觉,提升模型可靠性。
  3. 实验表明,OpenSearch-SQL在BIRD数据集上取得了领先的执行准确率和效率得分,验证了其有效性。

📝 摘要(中文)

多智能体协作的大型语言模型(LLMs)在Text-to-SQL任务中取得了显著突破,但其性能仍受多种因素限制,包括框架不完整、未能遵循指令以及模型幻觉问题。为了解决这些问题,我们提出了OpenSearch-SQL,它将Text-to-SQL任务划分为四个主要模块:预处理、提取、生成和细化,以及一个基于一致性对齐机制的对齐模块。该架构通过对齐模块对齐智能体的输入和输出,减少了指令遵循失败和幻觉。此外,我们设计了一种名为SQL-Like的中间语言,并优化了基于SQL-Like的结构化CoT。同时,我们开发了一种以自学Query-CoT-SQL形式的动态few-shot策略。这些方法显著提高了LLMs在Text-to-SQL任务中的性能。在模型选择方面,我们直接应用了基础LLMs,无需任何后训练,从而简化了任务链并增强了框架的可移植性。实验结果表明,OpenSearch-SQL在BIRD开发集上实现了69.3%的执行准确率(EX),在测试集上实现了72.28%的执行准确率,以及69.36%的基于奖励的有效性效率得分(R-VES),所有三个指标在提交时均排名第一。这些结果证明了所提出的方法在有效性和效率方面的综合优势。

🔬 方法详解

问题定义:Text-to-SQL任务旨在将自然语言问题转换为可执行的SQL查询语句。现有方法,特别是基于大型语言模型的方法,虽然取得了进展,但仍存在框架不完整、难以完全遵循指令以及产生幻觉等问题,导致生成的SQL查询不准确或无法执行。这些问题限制了Text-to-SQL系统的实用性和可靠性。

核心思路:OpenSearch-SQL的核心思路是将Text-to-SQL任务分解为多个模块,并通过一个一致性对齐模块来协调各个模块的输入和输出,从而减少指令遵循失败和幻觉。此外,该方法还引入了一种中间语言SQL-Like,用于优化结构化CoT(Chain-of-Thought),并采用动态few-shot策略,以提升模型的泛化能力。

技术框架:OpenSearch-SQL的整体架构包含四个主要模块:预处理(Preprocessing)、提取(Extraction)、生成(Generation)和细化(Refinement)。此外,还包含一个对齐模块(Alignment),用于协调各个模块的输入和输出,确保一致性。预处理模块负责对输入文本进行清洗和格式化。提取模块负责从文本中提取关键信息,如表名、列名等。生成模块负责生成SQL查询语句。细化模块负责对生成的SQL查询进行优化和修正。对齐模块则负责在各个模块之间传递信息,并确保输入和输出的一致性。

关键创新:OpenSearch-SQL的关键创新在于其一致性对齐机制和动态few-shot策略。一致性对齐机制通过对齐各个模块的输入和输出,减少了指令遵循失败和幻觉。动态few-shot策略则通过自学Query-CoT-SQL的形式,提升了模型的泛化能力。此外,SQL-Like中间语言的引入也简化了结构化CoT的优化过程。

关键设计:SQL-Like是一种简化的SQL语言,用于表示中间推理步骤,方便模型进行结构化推理。动态few-shot策略通过从训练集中选择与当前问题相似的示例,并将其作为few-shot示例提供给模型,从而提升模型的性能。具体的参数设置和损失函数等细节在论文中未明确说明,可能使用了默认的LLM配置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OpenSearch-SQL在BIRD数据集上取得了显著的性能提升,在开发集上实现了69.3%的执行准确率(EX),在测试集上实现了72.28%的执行准确率,以及69.36%的基于奖励的有效性效率得分(R-VES),所有三个指标在提交时均排名第一。这些结果表明,OpenSearch-SQL在Text-to-SQL任务中具有领先的性能。

🎯 应用场景

OpenSearch-SQL可应用于智能问答系统、数据库查询助手、数据分析平台等领域。它可以帮助用户通过自然语言快速准确地查询数据库,无需编写复杂的SQL语句。该研究的成果有助于提高数据访问的效率和便捷性,降低数据分析的门槛,并促进数据驱动的决策。

📄 摘要(原文)

Although multi-agent collaborative Large Language Models (LLMs) have achieved significant breakthroughs in the Text-to-SQL task, their performance is still constrained by various factors. These factors include the incompleteness of the framework, failure to follow instructions, and model hallucination problems. To address these problems, we propose OpenSearch-SQL, which divides the Text-to-SQL task into four main modules: Preprocessing, Extraction, Generation, and Refinement, along with an Alignment module based on a consistency alignment mechanism. This architecture aligns the inputs and outputs of agents through the Alignment module, reducing failures in instruction following and hallucination. Additionally, we designed an intermediate language called SQL-Like and optimized the structured CoT based on SQL-Like. Meanwhile, we developed a dynamic few-shot strategy in the form of self-taught Query-CoT-SQL. These methods have significantly improved the performance of LLMs in the Text-to-SQL task. In terms of model selection, we directly applied the base LLMs without any post-training, thereby simplifying the task chain and enhancing the framework's portability. Experimental results show that OpenSearch-SQL achieves an execution accuracy(EX) of 69.3% on the BIRD development set, 72.28% on the test set, and a reward-based validity efficiency score (R-VES) of 69.36%, with all three metrics ranking first at the time of submission. These results demonstrate the comprehensive advantages of the proposed method in both effectiveness and efficiency.