Reward-SQL: Boosting Text-to-SQL via Stepwise Reasoning and Process-Supervised Rewards

📄 arXiv: 2505.04671v2 📥 PDF

作者: Yuxin Zhang, Meihao Fan, Ju Fan, Mingyang Yi, Yuyu Luo, Jian Tan, Guoliang Li

分类: cs.CL, cs.LG

发布日期: 2025-05-07 (更新: 2025-05-18)


💡 一句话要点

Reward-SQL:通过逐步推理和过程监督奖励提升Text-to-SQL性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Text-to-SQL 大型语言模型 过程奖励模型 逐步推理 Chain-of-CTEs

📋 核心要点

  1. 现有Text-to-SQL方法在利用过程奖励模型(PRMs)时,存在扭曲推理轨迹,导致SQL生成质量下降的风险。
  2. Reward-SQL框架采用“冷启动+PRM监督”策略,先建立可解释的推理基线,再有效整合PRMs,避免推理过程被过度干扰。
  3. 实验表明,Reward-SQL在BIRD基准测试中实现了显著的性能提升,优于同等规模的其他方法,验证了其有效性。

📝 摘要(中文)

大型语言模型(LLMs)凭借其强大的推理能力,显著提升了Text-to-SQL任务的性能。为了增强推理过程的准确性,可以在训练和推理期间引入外部过程奖励模型(PRMs),以提供细粒度的监督。然而,如果PRMs使用不当,可能会扭曲推理轨迹,导致次优或不正确的SQL生成。为了解决这个问题,我们提出了Reward-SQL框架,该框架系统地探索了如何有效地将PRMs整合到Text-to-SQL推理过程中。我们的方法遵循“冷启动,然后PRM监督”的范式。具体来说,我们首先训练模型使用通用表表达式(Chain-of-CTEs)将SQL查询分解为结构化的逐步推理链,从而建立一个强大且可解释的推理基线。然后,我们研究了四种整合PRMs的策略,发现将PRM作为在线训练信号(例如,GRPO)与PRM引导的推理(例如,best-of-N采样)相结合,可以产生最佳结果。在BIRD基准测试中,Reward-SQL使PRM监督的模型(7B)在各种指导策略中实现了13.1%的性能提升。值得注意的是,我们基于Qwen2.5-Coder-7B-Instruct的GRPO对齐策略模型在BIRD开发集上实现了68.9%的准确率,优于相同模型大小下的所有基线方法。这些结果证明了Reward-SQL在利用基于奖励的监督进行Text-to-SQL推理方面的有效性。

🔬 方法详解

问题定义:论文旨在解决Text-to-SQL任务中,如何有效利用过程奖励模型(PRMs)来提升SQL生成准确性的问题。现有方法在利用PRMs时,容易出现PRMs过度干预推理过程,导致推理轨迹扭曲,最终生成次优甚至错误的SQL语句。因此,如何在利用PRMs的同时,保证推理过程的稳定性和准确性是本文要解决的核心问题。

核心思路:论文的核心思路是采用“冷启动,然后PRM监督”的范式。首先,通过Chain-of-CTEs方法,训练模型将SQL查询分解为结构化的逐步推理链,建立一个强大且可解释的推理基线。然后,在已经具备较好推理能力的基础上,再引入PRMs进行监督,从而避免PRMs对推理过程的过度干扰。这种方式可以更好地利用PRMs的细粒度监督信息,同时保证推理过程的稳定性。

技术框架:Reward-SQL框架主要包含两个阶段:1) 冷启动阶段:使用Chain-of-CTEs方法训练模型,使其具备将SQL查询分解为结构化推理链的能力。具体来说,就是将复杂的SQL查询分解为一系列的通用表表达式(CTEs),每个CTE负责完成一个子任务,最终将所有CTEs组合起来得到完整的SQL查询。2) PRM监督阶段:在冷启动阶段训练好的模型基础上,引入PRMs进行监督。论文研究了四种整合PRMs的策略,包括将PRM作为在线训练信号(例如,GRPO)和PRM引导的推理(例如,best-of-N采样)。

关键创新:论文的关键创新在于提出了“冷启动,然后PRM监督”的范式,以及对多种PRM整合策略的系统性研究。与现有方法相比,Reward-SQL避免了PRMs对推理过程的过度干扰,从而更好地利用了PRMs的细粒度监督信息。此外,论文还提出了Chain-of-CTEs方法,用于建立一个强大且可解释的推理基线。

关键设计:在冷启动阶段,论文使用了交叉熵损失函数来训练模型,使其能够准确地将SQL查询分解为CTEs。在PRM监督阶段,论文使用了GRPO算法作为在线训练信号,并使用best-of-N采样作为PRM引导的推理方法。此外,论文还对不同的PRM整合策略进行了实验,并分析了它们对性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Reward-SQL在BIRD基准测试中取得了显著的性能提升。基于Qwen2.5-Coder-7B-Instruct的GRPO对齐策略模型在BIRD开发集上实现了68.9%的准确率,优于相同模型大小下的所有基线方法。此外,Reward-SQL使PRM监督的模型(7B)在各种指导策略中实现了13.1%的性能提升,证明了其在利用奖励监督进行Text-to-SQL推理方面的有效性。

🎯 应用场景

Reward-SQL框架具有广泛的应用前景,可应用于各种需要将自然语言转换为结构化查询的场景,例如智能客服、数据分析、数据库管理等。通过提升Text-to-SQL的准确性和效率,可以帮助用户更方便地从数据库中获取所需信息,提高工作效率和决策质量。未来,该框架还可以扩展到其他自然语言处理任务中,例如代码生成、文本摘要等。

📄 摘要(原文)

Recent advances in large language models (LLMs) have significantly improved performance on the Text-to-SQL task by leveraging their powerful reasoning capabilities. To enhance accuracy during the reasoning process, external Process Reward Models (PRMs) can be introduced during training and inference to provide fine-grained supervision. However, if misused, PRMs may distort the reasoning trajectory and lead to suboptimal or incorrect SQL generation. To address this challenge, we propose Reward-SQL, a framework that systematically explores how to incorporate PRMs into the Text-to-SQL reasoning process effectively. Our approach follows a "cold start, then PRM supervision" paradigm. Specifically, we first train the model to decompose SQL queries into structured stepwise reasoning chains using common table expressions (Chain-of-CTEs), establishing a strong and interpretable reasoning baseline. Then, we investigate four strategies for integrating PRMs, and find that combining PRM as an online training signal (e.g.,GRPO) with PRM-guided inference (e.g., best-of-N sampling) yields the best results. Empirically, on the BIRD benchmark, Reward-SQL enables models supervised by PRM (7B) to achieve a 13.1% performance gain across various guidance strategies. Notably, our GRPO-aligned policy model based on Qwen2.5-Coder-7B-Instruct achieves 68.9% accuracy on the BIRD development set, outperforming all baseline methods under the same model size. These results demonstrate the effectiveness of Reward-SQL in leveraging reward-based supervision for Text-to-SQL reasoning.