ReViSQL: Achieving Human-Level Text-to-SQL

📄 arXiv: 2603.20004v1 📥 PDF

作者: Yuxuan Zhu, Tengjun Jin, Yoojin Choi, Daniel Kang

分类: cs.DB, cs.CL

发布日期: 2026-03-20


💡 一句话要点

ReViSQL:通过高质量数据和强化学习,在Text-to-SQL任务上达到人类水平

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Text-to-SQL 自然语言处理 数据库查询 强化学习 数据质量 BIRD基准 AI Agent SQL推理

📋 核心要点

  1. 现有Text-to-SQL方法依赖复杂AI Agent和人工设计的pipeline,但仍未达到人类水平,表明模型推理能力存在瓶颈。
  2. ReViSQL通过构建高质量的BIRD-Verified数据集,并结合带有可验证奖励的强化学习,提升底层模型的SQL推理能力。
  3. 实验表明,ReViSQL在BIRD基准测试中达到人类水平的准确率,并在效率上优于现有SOTA方法,证明了数据质量的重要性。

📝 摘要(中文)

本文提出了一种名为ReViSQL的框架,旨在解决自然语言到SQL(Text-to-SQL)的翻译问题,并在BIRD基准测试中首次达到人类水平的准确率。与依赖复杂AI Agent的方法不同,ReViSQL强调高质量训练数据的重要性。该框架利用在BIRD-Verified数据集上进行的、带有可验证奖励的强化学习(RLVR)。BIRD-Verified数据集是通过SQL专家对BIRD训练集进行数据校正和验证而构建的,其中61.1%的子集被发现并纠正了数据错误。实验结果表明,仅通过改进数据质量,在相同的RLVR算法下,单次生成的准确率就提高了8.2-13.9%。为了进一步提高性能,ReViSQL在推理时执行基于执行的协调和多数投票。ReViSQL-235B-A22B在专家验证的BIRD Mini-Dev集上实现了93.2%的执行准确率,超过了代理人类水平的准确率(92.96%),并且比之前的开源SOTA方法提高了9.8%。轻量级的ReViSQL-30B-A3B以7.5倍更低的单查询成本匹配了之前的SOTA。

🔬 方法详解

问题定义:Text-to-SQL任务旨在将自然语言转化为SQL查询语句。现有方法通常依赖于复杂的AI Agent和人工设计的pipeline,但即使是目前最先进的模型,在BIRD等基准测试上的表现也未能达到人类水平。现有方法的痛点在于模型对SQL的推理能力不足,以及训练数据中可能存在的错误。

核心思路:ReViSQL的核心思路是,与其继续增加模型的复杂度,不如专注于提升训练数据的质量,从而提高底层模型的SQL推理能力。通过构建高质量的BIRD-Verified数据集,并结合强化学习,使模型能够更好地学习正确的SQL生成策略。

技术框架:ReViSQL框架主要包含两个阶段:数据准备阶段和模型训练与推理阶段。在数据准备阶段,通过SQL专家对BIRD训练集进行数据校正和验证,构建BIRD-Verified数据集。在模型训练阶段,使用带有可验证奖励的强化学习(RLVR)算法在BIRD-Verified数据集上训练模型。在推理阶段,采用基于执行的协调和多数投票策略,进一步提高模型的性能。

关键创新:ReViSQL最重要的技术创新点在于强调数据质量的重要性,并通过构建高质量的BIRD-Verified数据集来提升模型的SQL推理能力。与现有方法相比,ReViSQL并没有过度依赖复杂的模型架构,而是专注于数据本身,这是一种更加有效和经济的解决方案。此外,RLVR算法的使用也保证了模型训练的稳定性和效率。

关键设计:BIRD-Verified数据集的构建是关键设计之一,通过SQL专家对原始数据进行校正和验证,确保数据的准确性和一致性。RLVR算法中的奖励函数设计也至关重要,需要能够准确地反映SQL查询的正确性。此外,推理阶段的基于执行的协调和多数投票策略,可以有效地减少错误,提高模型的整体性能。具体的参数设置和网络结构等细节信息在论文中可能有所描述,但摘要中未明确提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReViSQL-235B-A22B在专家验证的BIRD Mini-Dev集上实现了93.2%的执行准确率,超过了代理人类水平的准确率(92.96%),并且比之前的开源SOTA方法提高了9.8%。轻量级的ReViSQL-30B-A3B以7.5倍更低的单查询成本匹配了之前的SOTA。这些结果表明,ReViSQL在准确性和效率方面都具有显著的优势。

🎯 应用场景

ReViSQL在数据库查询、数据分析和智能助手等领域具有广泛的应用前景。它可以帮助用户通过自然语言快速准确地查询数据库,提高数据分析的效率和准确性。此外,ReViSQL还可以应用于智能助手,使其能够更好地理解用户的查询意图,并提供更准确的答案。该研究的成果有助于推动Text-to-SQL技术的发展,并为相关应用带来实际价值。

📄 摘要(原文)

Translating natural language to SQL (Text-to-SQL) is a critical challenge in both database research and data analytics applications. Recent efforts have focused on enhancing SQL reasoning by developing large language models and AI agents that decompose Text-to-SQL tasks into manually designed, step-by-step pipelines. However, despite these extensive architectural engineering efforts, a significant gap remains: even state-of-the-art (SOTA) AI agents have not yet achieved the human-level accuracy on the BIRD benchmark. In this paper, we show that closing this gap does not require further architectural complexity, but rather clean training data to improve SQL reasoning of the underlying models. We introduce ReViSQL, a streamlined framework that achieves human-level accuracy on BIRD for the first time. Instead of complex AI agents, ReViSQL leverages reinforcement learning with verifiable rewards (RLVR) on BIRD-Verified, a dataset we curated comprising 2.5k verified Text-to-SQL instances based on the BIRD Train set. To construct BIRD-Verified, we design a data correction and verification workflow involving SQL experts. We identified and corrected data errors in 61.1% of a subset of BIRD Train. By training on BIRD-Verified, we show that improving data quality alone boosts the single-generation accuracy by 8.2-13.9% under the same RLVR algorithm. To further enhance performance, ReViSQL performs inference-time scaling via execution-based reconciliation and majority voting. Empirically, we demonstrate the superiority of our framework with two model scales: ReViSQL-235B-A22B and ReViSQL-30B-A3B. On an expert-verified BIRD Mini-Dev set, ReViSQL-235B-A22B achieves 93.2% execution accuracy, exceeding the proxy human-level accuracy (92.96%) and outperforming the prior open-source SOTA method by 9.8%. Our lightweight ReViSQL-30B-A3B matches the prior SOTA at a 7.5$\times$ lower per-query cost.