Sparks of Tabular Reasoning via Text2SQL Reinforcement Learning

作者: Josefa Lia Stoisser, Marc Boubnovski Martell, Julien Fauqueur

分类: cs.CL, cs.AI

发布日期: 2025-04-23 (更新: 2025-05-02)

💡 一句话要点

提出基于Text2SQL强化学习的表格推理方法，提升LLM在结构化数据上的推理能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Text-to-SQL 表格推理 强化学习 思维链 大型语言模型

📋 核心要点

现有Text-to-SQL方法侧重于查询生成，忽略了LLM在表格数据上的推理能力。
提出两阶段框架，先用SQL监督生成CoT轨迹，再用GRPO强化学习提升泛化性。
实验表明，该方法在BIRD和CRT-QA等数据集上显著提升，增强了泛化性和可解释性。

📝 摘要（中文）

本文将Text-to-SQL任务重新定义为训练大型语言模型（LLM）在表格数据上进行推理和操作的途径，超越了传统上对查询生成的关注。我们提出了一个两阶段框架，利用SQL监督来开发可迁移的表格推理能力。首先，我们从真实世界的SQL查询中合成详细的思维链（CoT）轨迹，提供逐步的、子句级别的监督，教导模型如何遍历、过滤和聚合表格字段。其次，我们引入了一种组相对策略优化（GRPO）强化学习目标，通过鼓励超出任务特定语法的步骤并在数据集之间迁移，将SQL执行准确性与可泛化的推理联系起来。实验结果表明，我们的方法提高了标准Text-to-SQL基准测试的性能，并在推理密集型数据集（如BIRD和CRT-QA）上取得了显著的提升，展示了增强的泛化能力和可解释性。具体而言，经过蒸馏量化的LLaMA模型在Text-to-SQL任务上训练后，准确率相对提高了33.9％，而Qwen模型则相对提高了14.5％。这些结果表明，SQL不仅可以作为目标形式化表示，还可以作为学习在结构化数据上进行鲁棒、可迁移推理的有效支架。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在结构化表格数据上进行有效推理的问题。现有Text-to-SQL方法主要关注SQL查询的生成，而忽略了LLM在理解和操作表格数据方面的推理能力。这些方法在处理复杂的、需要多步推理的查询时表现不佳，泛化能力有限。

核心思路：论文的核心思路是将Text-to-SQL任务重新定义为训练LLM进行表格推理的过程，而不仅仅是生成SQL查询。通过提供详细的思维链（CoT）监督和强化学习，引导模型学习如何逐步分析和操作表格数据，从而提高其推理能力和泛化性。这种方法的设计理念是利用SQL作为一种结构化的知识表示和推理工具，帮助模型更好地理解表格数据的语义。

技术框架：该方法包含两个主要阶段： 1. CoT轨迹生成：从真实的SQL查询中合成详细的CoT轨迹，这些轨迹提供了逐步的、子句级别的监督，指导模型如何遍历、过滤和聚合表格字段。 2. GRPO强化学习：引入组相对策略优化（GRPO）强化学习目标，将SQL执行准确性与可泛化的推理联系起来。GRPO鼓励模型采取超出任务特定语法的步骤，从而提高其在不同数据集上的迁移能力。

关键创新：该方法最重要的技术创新点在于将Text-to-SQL任务视为一个推理学习问题，并利用SQL作为一种有效的监督信号和推理框架。通过CoT轨迹生成和GRPO强化学习，模型能够学习到更鲁棒、可迁移的表格推理能力。与现有方法相比，该方法更加注重模型的推理过程，而不仅仅是最终的查询结果。

关键设计： * CoT轨迹生成：使用启发式方法从SQL查询中提取CoT轨迹，确保轨迹的完整性和准确性。 * GRPO强化学习：设计了一种新的奖励函数，将SQL执行准确性与推理步骤的合理性相结合。GRPO通过比较同一组查询的不同策略，鼓励模型采取更通用的推理步骤。 * 模型架构：使用预训练的LLM（如LLaMA和Qwen）作为基础模型，并对其进行微调和强化学习。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在标准Text-to-SQL基准测试中取得了显著的性能提升，尤其是在推理密集型数据集（如BIRD和CRT-QA）上。经过蒸馏量化的LLaMA模型在Text-to-SQL任务上训练后，准确率相对提高了33.9％，而Qwen模型则相对提高了14.5％。这些结果表明，该方法能够有效提高LLM在结构化数据上的推理能力和泛化性。

🎯 应用场景

该研究成果可应用于智能数据分析、自动化报表生成、智能客服等领域。通过提升LLM在结构化数据上的推理能力，可以实现更智能、更高效的数据处理和分析，帮助用户更好地理解和利用数据。未来，该方法有望扩展到更广泛的结构化数据推理任务中，例如知识图谱推理和数据库查询优化。

📄 摘要（原文）

This work reframes the Text-to-SQL task as a pathway for teaching large language models (LLMs) to reason over and manipulate tabular data--moving beyond the traditional focus on query generation. We propose a two-stage framework that leverages SQL supervision to develop transferable table reasoning capabilities. First, we synthesize detailed chain-of-thought (CoT) traces from real-world SQL queries, providing step-by-step, clause-level supervision that teaches the model how to traverse, filter, and aggregate table fields. Second, we introduce a Group Relative Policy Optimization (GRPO) reinforcement learning objective that connects SQL execution accuracy to generalizable reasoning by encouraging steps that extend beyond task-specific syntax and transfer across datasets. Empirically, our approach improves performance on standard Text-to-SQL benchmarks and achieves substantial gains on reasoning-intensive datasets such as BIRD and CRT-QA, demonstrating enhanced generalization and interpretability. Specifically, the distilled-quantized LLaMA model achieved a relative 33.9\% increase in accuracy when trained on Text-to-SQL tasks, while Qwen achieved a relative 14.5\% increase. These results suggest that SQL can serve not only as a target formalism but also as an effective scaffold for learning robust, transferable reasoning over structured data.

Sparks of Tabular Reasoning via Text2SQL Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理