A State-of-the-Art SQL Reasoning Model using RLVR
作者: Alnur Ali, Ashutosh Baheti, Jonathan Chang, Ta-Chung Chi, Brandon Cui, Andrew Drozdov, Jonathan Frankle, Abhay Gupta, Pallavi Koppol, Sean Kulinski, Jonathan Li, Dipendra Misra, Krista Opsahl-Ong, Jose Javier Gonzalez Ortiz, Matei Zaharia, Yue Zhang
分类: cs.CL, cs.AI, cs.DB, cs.LG
发布日期: 2025-09-25
💡 一句话要点
利用可验证奖励的强化学习,提出SQL推理模型RLVR,在BIRD数据集上达到SOTA。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: Text-to-SQL 强化学习 可验证奖励 自然语言处理 数据库查询
📋 核心要点
- 现有方法难以有效整合组织特定知识,限制了在企业级应用中的表现。
- 利用可验证奖励的强化学习(RLVR),通过精心设计的提示和模型选择,实现高效训练。
- 在BIRD数据集上,无需额外数据和专有模型,达到SOTA准确率,验证了框架的有效性。
📝 摘要(中文)
本文提出了一种利用强化学习(RL)构建定制推理模型的方法,该模型能够整合特定组织的知识,以解决企业客户面临的问题。在许多此类问题中,奖励函数是可验证的,这种设置被称为具有可验证奖励的强化学习(RLVR)。我们将RLVR应用于一个流行的数据科学基准测试BIRD,该基准测试衡量AI代理将数据库的自然语言查询转换为SQL执行的能力。我们采用了一种简单通用的训练方法,包括仔细的提示和模型选择,使用我们的离线RL方法TAO进行预热阶段,然后进行严格的在线RLVR训练。在没有超出BIRD训练集的额外训练数据且不使用专有模型的情况下,我们首次提交给BIRD排行榜的模型在私有测试集上达到了最先进的准确率:不使用自洽性为73.56%,使用自洽性为75.68%。在后一种情况下,我们的模型也比第二好的方法需要更少的生成次数。虽然BIRD只是一个代理任务,但我们框架的简单性使其广泛适用于商业智能、数据科学和编码等企业领域。
🔬 方法详解
问题定义:论文旨在解决将自然语言查询转换为SQL语句的问题,即text-to-SQL任务。现有方法通常难以有效利用企业内部的特定知识,并且在复杂数据集上表现不佳。BIRD数据集是一个具有挑战性的text-to-SQL基准,现有模型在该数据集上的性能仍有提升空间。
核心思路:论文的核心思路是利用强化学习,特别是具有可验证奖励的强化学习(RLVR),来训练一个能够生成SQL语句的代理。通过RLVR,模型可以根据生成的SQL语句的执行结果(是否正确)获得奖励,从而学习生成更准确的SQL语句。这种方法允许模型利用数据库的反馈信息,而不仅仅依赖于训练数据。
技术框架:整体框架包含以下几个主要阶段:1) 提示和模型选择:选择合适的预训练语言模型作为基础模型,并设计有效的提示来引导模型生成SQL语句。2) 离线RL预热:使用离线RL方法TAO对模型进行预热,使其初步具备生成SQL语句的能力。3) 在线RLVR训练:使用在线RLVR方法对模型进行训练,根据生成的SQL语句的执行结果获得奖励,并使用策略梯度方法更新模型参数。
关键创新:论文的关键创新在于将RLVR应用于text-to-SQL任务,并提出了一种简单通用的训练方法,该方法不需要额外的训练数据和专有模型,即可在BIRD数据集上达到SOTA性能。此外,使用TAO进行预热,加速了RL的收敛速度。
关键设计:论文中,奖励函数的设计至关重要,它直接影响模型的学习效果。奖励函数基于生成的SQL语句的执行结果,如果执行结果正确,则给予正奖励,否则给予负奖励。此外,论文还使用了自洽性(self-consistency)方法,即生成多个SQL语句,并选择其中执行结果最一致的语句作为最终结果。具体的网络结构和参数设置在论文中没有详细描述,属于未知信息。
📊 实验亮点
该模型在BIRD私有测试集上取得了显著成果,不使用自洽性时准确率达到73.56%,使用自洽性时达到75.68%,均达到SOTA水平。尤其是在使用自洽性的情况下,该模型比第二好的方法需要更少的生成次数,表明其效率更高。这些结果验证了RLVR方法在text-to-SQL任务中的有效性。
🎯 应用场景
该研究成果可广泛应用于企业级数据分析、商业智能和自动化代码生成等领域。通过将自然语言查询转化为可执行的SQL语句,可以显著降低数据分析的门槛,提高工作效率。未来,该技术有望应用于更复杂的数据库和查询场景,实现更智能化的数据分析和管理。
📄 摘要(原文)
Developing custom reasoning models via Reinforcement Learning (RL) that can incorporate organization-specific knowledge has great potential to address problems faced by enterprise customers. In many of these problems, the reward function is verifiable, a setting termed RL with Verifiable Rewards (RLVR). We apply RLVR to a popular data science benchmark called BIRD that measures the ability of an AI agent to convert a natural language query for a database to SQL executions. We apply a simple and general-purpose training recipe involving careful prompt and model selection, a warm-up stage using our offline RL approach called TAO, followed by rigorous online RLVR training. With no additional training data beyond the BIRD training set and no use of proprietary models, our very first submission to the BIRD leaderboard reached state-of-the-art accuracy on the private test set: 73.56% without self-consistency and 75.68% with self-consistency. In the latter case, our model also required fewer generations than the second-best approach. While BIRD is only a proxy task, the simplicity of our framework makes it broadly applicable to enterprise domains such as business intelligence, data science, and coding.