Sparks of Tabular Reasoning via Text2SQL Reinforcement Learning

📄 arXiv: 2505.00016v2 📥 PDF

作者: Josefa Lia Stoisser, Marc Boubnovski Martell, Julien Fauqueur

分类: cs.CL, cs.AI

发布日期: 2025-04-23 (更新: 2025-05-02)


💡 一句话要点

提出基于Text2SQL强化学习的表格推理方法,提升LLM在结构化数据上的推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Text-to-SQL 表格推理 强化学习 思维链 大型语言模型

📋 核心要点

  1. 现有Text-to-SQL方法侧重于查询生成,忽略了LLM在表格数据上的推理能力。
  2. 提出两阶段框架,先用SQL监督生成CoT轨迹,再用GRPO强化学习提升泛化性。
  3. 实验表明,该方法在BIRD和CRT-QA等数据集上显著提升,增强了泛化性和可解释性。

📝 摘要(中文)

本文将Text-to-SQL任务重新定义为训练大型语言模型(LLM)在表格数据上进行推理和操作的途径,超越了传统上对查询生成的关注。我们提出了一个两阶段框架,利用SQL监督来开发可迁移的表格推理能力。首先,我们从真实世界的SQL查询中合成详细的思维链(CoT)轨迹,提供逐步的、子句级别的监督,教导模型如何遍历、过滤和聚合表格字段。其次,我们引入了一种组相对策略优化(GRPO)强化学习目标,通过鼓励超出任务特定语法的步骤并在数据集之间迁移,将SQL执行准确性与可泛化的推理联系起来。实验结果表明,我们的方法提高了标准Text-to-SQL基准测试的性能,并在推理密集型数据集(如BIRD和CRT-QA)上取得了显著的提升,展示了增强的泛化能力和可解释性。具体而言,经过蒸馏量化的LLaMA模型在Text-to-SQL任务上训练后,准确率相对提高了33.9%,而Qwen模型则相对提高了14.5%。这些结果表明,SQL不仅可以作为目标形式化表示,还可以作为学习在结构化数据上进行鲁棒、可迁移推理的有效支架。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在结构化表格数据上进行有效推理的问题。现有Text-to-SQL方法主要关注SQL查询的生成,而忽略了LLM在理解和操作表格数据方面的推理能力。这些方法在处理复杂的、需要多步推理的查询时表现不佳,泛化能力有限。

核心思路:论文的核心思路是将Text-to-SQL任务重新定义为训练LLM进行表格推理的过程,而不仅仅是生成SQL查询。通过提供详细的思维链(CoT)监督和强化学习,引导模型学习如何逐步分析和操作表格数据,从而提高其推理能力和泛化性。这种方法的设计理念是利用SQL作为一种结构化的知识表示和推理工具,帮助模型更好地理解表格数据的语义。

技术框架:该方法包含两个主要阶段: 1. CoT轨迹生成:从真实的SQL查询中合成详细的CoT轨迹,这些轨迹提供了逐步的、子句级别的监督,指导模型如何遍历、过滤和聚合表格字段。 2. GRPO强化学习:引入组相对策略优化(GRPO)强化学习目标,将SQL执行准确性与可泛化的推理联系起来。GRPO鼓励模型采取超出任务特定语法的步骤,从而提高其在不同数据集上的迁移能力。

关键创新:该方法最重要的技术创新点在于将Text-to-SQL任务视为一个推理学习问题,并利用SQL作为一种有效的监督信号和推理框架。通过CoT轨迹生成和GRPO强化学习,模型能够学习到更鲁棒、可迁移的表格推理能力。与现有方法相比,该方法更加注重模型的推理过程,而不仅仅是最终的查询结果。

关键设计: * CoT轨迹生成:使用启发式方法从SQL查询中提取CoT轨迹,确保轨迹的完整性和准确性。 * GRPO强化学习:设计了一种新的奖励函数,将SQL执行准确性与推理步骤的合理性相结合。GRPO通过比较同一组查询的不同策略,鼓励模型采取更通用的推理步骤。 * 模型架构:使用预训练的LLM(如LLaMA和Qwen)作为基础模型,并对其进行微调和强化学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在标准Text-to-SQL基准测试中取得了显著的性能提升,尤其是在推理密集型数据集(如BIRD和CRT-QA)上。经过蒸馏量化的LLaMA模型在Text-to-SQL任务上训练后,准确率相对提高了33.9%,而Qwen模型则相对提高了14.5%。这些结果表明,该方法能够有效提高LLM在结构化数据上的推理能力和泛化性。

🎯 应用场景

该研究成果可应用于智能数据分析、自动化报表生成、智能客服等领域。通过提升LLM在结构化数据上的推理能力,可以实现更智能、更高效的数据处理和分析,帮助用户更好地理解和利用数据。未来,该方法有望扩展到更广泛的结构化数据推理任务中,例如知识图谱推理和数据库查询优化。

📄 摘要(原文)

This work reframes the Text-to-SQL task as a pathway for teaching large language models (LLMs) to reason over and manipulate tabular data--moving beyond the traditional focus on query generation. We propose a two-stage framework that leverages SQL supervision to develop transferable table reasoning capabilities. First, we synthesize detailed chain-of-thought (CoT) traces from real-world SQL queries, providing step-by-step, clause-level supervision that teaches the model how to traverse, filter, and aggregate table fields. Second, we introduce a Group Relative Policy Optimization (GRPO) reinforcement learning objective that connects SQL execution accuracy to generalizable reasoning by encouraging steps that extend beyond task-specific syntax and transfer across datasets. Empirically, our approach improves performance on standard Text-to-SQL benchmarks and achieves substantial gains on reasoning-intensive datasets such as BIRD and CRT-QA, demonstrating enhanced generalization and interpretability. Specifically, the distilled-quantized LLaMA model achieved a relative 33.9\% increase in accuracy when trained on Text-to-SQL tasks, while Qwen achieved a relative 14.5\% increase. These results suggest that SQL can serve not only as a target formalism but also as an effective scaffold for learning robust, transferable reasoning over structured data.