Reward-SQL: Boosting Text-to-SQL via Stepwise Reasoning and Process-Supervised Rewards

作者: Yuxin Zhang, Meihao Fan, Ju Fan, Mingyang Yi, Yuyu Luo, Jian Tan, Guoliang Li

分类: cs.CL, cs.LG

发布日期: 2025-05-07 (更新: 2025-05-18)

💡 一句话要点

Reward-SQL：通过逐步推理和过程监督奖励提升Text-to-SQL性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Text-to-SQL 大型语言模型 过程奖励模型 逐步推理 Chain-of-CTEs

📋 核心要点

现有Text-to-SQL方法在利用过程奖励模型（PRMs）时，存在扭曲推理轨迹，导致SQL生成质量下降的风险。
Reward-SQL框架采用“冷启动+PRM监督”策略，先建立可解释的推理基线，再有效整合PRMs，避免推理过程被过度干扰。
实验表明，Reward-SQL在BIRD基准测试中实现了显著的性能提升，优于同等规模的其他方法，验证了其有效性。

📝 摘要（中文）

大型语言模型（LLMs）凭借其强大的推理能力，显著提升了Text-to-SQL任务的性能。为了增强推理过程的准确性，可以在训练和推理期间引入外部过程奖励模型（PRMs），以提供细粒度的监督。然而，如果PRMs使用不当，可能会扭曲推理轨迹，导致次优或不正确的SQL生成。为了解决这个问题，我们提出了Reward-SQL框架，该框架系统地探索了如何有效地将PRMs整合到Text-to-SQL推理过程中。我们的方法遵循“冷启动，然后PRM监督”的范式。具体来说，我们首先训练模型使用通用表表达式（Chain-of-CTEs）将SQL查询分解为结构化的逐步推理链，从而建立一个强大且可解释的推理基线。然后，我们研究了四种整合PRMs的策略，发现将PRM作为在线训练信号（例如，GRPO）与PRM引导的推理（例如，best-of-N采样）相结合，可以产生最佳结果。在BIRD基准测试中，Reward-SQL使PRM监督的模型（7B）在各种指导策略中实现了13.1%的性能提升。值得注意的是，我们基于Qwen2.5-Coder-7B-Instruct的GRPO对齐策略模型在BIRD开发集上实现了68.9%的准确率，优于相同模型大小下的所有基线方法。这些结果证明了Reward-SQL在利用基于奖励的监督进行Text-to-SQL推理方面的有效性。

🔬 方法详解

问题定义：论文旨在解决Text-to-SQL任务中，如何有效利用过程奖励模型（PRMs）来提升SQL生成准确性的问题。现有方法在利用PRMs时，容易出现PRMs过度干预推理过程，导致推理轨迹扭曲，最终生成次优甚至错误的SQL语句。因此，如何在利用PRMs的同时，保证推理过程的稳定性和准确性是本文要解决的核心问题。

核心思路：论文的核心思路是采用“冷启动，然后PRM监督”的范式。首先，通过Chain-of-CTEs方法，训练模型将SQL查询分解为结构化的逐步推理链，建立一个强大且可解释的推理基线。然后，在已经具备较好推理能力的基础上，再引入PRMs进行监督，从而避免PRMs对推理过程的过度干扰。这种方式可以更好地利用PRMs的细粒度监督信息，同时保证推理过程的稳定性。

技术框架：Reward-SQL框架主要包含两个阶段：1) 冷启动阶段：使用Chain-of-CTEs方法训练模型，使其具备将SQL查询分解为结构化推理链的能力。具体来说，就是将复杂的SQL查询分解为一系列的通用表表达式（CTEs），每个CTE负责完成一个子任务，最终将所有CTEs组合起来得到完整的SQL查询。2) PRM监督阶段：在冷启动阶段训练好的模型基础上，引入PRMs进行监督。论文研究了四种整合PRMs的策略，包括将PRM作为在线训练信号（例如，GRPO）和PRM引导的推理（例如，best-of-N采样）。

关键创新：论文的关键创新在于提出了“冷启动，然后PRM监督”的范式，以及对多种PRM整合策略的系统性研究。与现有方法相比，Reward-SQL避免了PRMs对推理过程的过度干扰，从而更好地利用了PRMs的细粒度监督信息。此外，论文还提出了Chain-of-CTEs方法，用于建立一个强大且可解释的推理基线。

关键设计：在冷启动阶段，论文使用了交叉熵损失函数来训练模型，使其能够准确地将SQL查询分解为CTEs。在PRM监督阶段，论文使用了GRPO算法作为在线训练信号，并使用best-of-N采样作为PRM引导的推理方法。此外，论文还对不同的PRM整合策略进行了实验，并分析了它们对性能的影响。

🖼️ 关键图片

📊 实验亮点

Reward-SQL在BIRD基准测试中取得了显著的性能提升。基于Qwen2.5-Coder-7B-Instruct的GRPO对齐策略模型在BIRD开发集上实现了68.9%的准确率，优于相同模型大小下的所有基线方法。此外，Reward-SQL使PRM监督的模型（7B）在各种指导策略中实现了13.1%的性能提升，证明了其在利用奖励监督进行Text-to-SQL推理方面的有效性。

🎯 应用场景

Reward-SQL框架具有广泛的应用前景，可应用于各种需要将自然语言转换为结构化查询的场景，例如智能客服、数据分析、数据库管理等。通过提升Text-to-SQL的准确性和效率，可以帮助用户更方便地从数据库中获取所需信息，提高工作效率和决策质量。未来，该框架还可以扩展到其他自然语言处理任务中，例如代码生成、文本摘要等。

📄 摘要（原文）

Recent advances in large language models (LLMs) have significantly improved performance on the Text-to-SQL task by leveraging their powerful reasoning capabilities. To enhance accuracy during the reasoning process, external Process Reward Models (PRMs) can be introduced during training and inference to provide fine-grained supervision. However, if misused, PRMs may distort the reasoning trajectory and lead to suboptimal or incorrect SQL generation. To address this challenge, we propose Reward-SQL, a framework that systematically explores how to incorporate PRMs into the Text-to-SQL reasoning process effectively. Our approach follows a "cold start, then PRM supervision" paradigm. Specifically, we first train the model to decompose SQL queries into structured stepwise reasoning chains using common table expressions (Chain-of-CTEs), establishing a strong and interpretable reasoning baseline. Then, we investigate four strategies for integrating PRMs, and find that combining PRM as an online training signal (e.g.,GRPO) with PRM-guided inference (e.g., best-of-N sampling) yields the best results. Empirically, on the BIRD benchmark, Reward-SQL enables models supervised by PRM (7B) to achieve a 13.1% performance gain across various guidance strategies. Notably, our GRPO-aligned policy model based on Qwen2.5-Coder-7B-Instruct achieves 68.9% accuracy on the BIRD development set, outperforming all baseline methods under the same model size. These results demonstrate the effectiveness of Reward-SQL in leveraging reward-based supervision for Text-to-SQL reasoning.

Reward-SQL: Boosting Text-to-SQL via Stepwise Reasoning and Process-Supervised Rewards

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理