TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

📄 arXiv: 2603.16448v1 📥 PDF

作者: Ai Jian, Xiaoyun Zhang, Wanrou Du, Jingqing Ruan, Jiangbo Pei, Weipeng Zhang, Ke Zeng, Xunliang Cai

分类: cs.AI

发布日期: 2026-03-17


💡 一句话要点

提出TRUST-SQL,解决未知Schema下的Text-to-SQL问题,无需预加载元数据。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: Text-to-SQL 未知Schema 强化学习 工具集成 信用分配

📋 核心要点

  1. 现有Text-to-SQL方法依赖完整Schema假设,但在实际企业环境中,数据库包含大量噪声元数据,完整Schema假设不再成立。
  2. TRUST-SQL通过结构化的四阶段协议,利用验证后的元数据进行推理,并采用双轨GRPO策略解决信用分配问题。
  3. 实验结果表明,TRUST-SQL在多个基准测试中取得了显著的性能提升,甚至超越了依赖Schema预填充的基线模型。

📝 摘要(中文)

本文研究了在未知Schema下的Text-to-SQL任务,即在数据库包含大量噪声元数据且无法预先加载完整Schema的真实企业环境中,如何进行Text-to-SQL解析。为此,我们提出了TRUST-SQL(Truthful Reasoning with Unknown Schema via Tools),将该任务建模为部分可观察马尔可夫决策过程,其中智能体采用结构化的四阶段协议,以验证后的元数据为基础进行推理。该协议为我们提出的双轨GRPO策略提供了结构边界。通过应用token级别的masked advantages,该策略将探索奖励与执行结果隔离,从而解决信用分配问题,相对于标准GRPO实现了9.9%的相对改进。在五个基准测试上的大量实验表明,TRUST-SQL相对于其基础模型,在4B和8B变体上分别实现了平均30.6%和16.6%的绝对改进。值得注意的是,尽管完全在没有预加载元数据的情况下运行,我们的框架始终与依赖Schema预填充的强大基线相匹配或超越。

🔬 方法详解

问题定义:论文旨在解决在未知Schema下的Text-to-SQL问题。现有方法通常假设可以预先获得完整的数据库Schema,但在实际应用中,数据库往往包含大量噪声元数据,使得预先加载完整Schema变得不切实际。这导致现有方法无法有效地处理真实场景下的Text-to-SQL任务。

核心思路:论文的核心思路是将Text-to-SQL任务建模为部分可观察马尔可夫决策过程,并设计一个智能体,使其能够通过与环境交互,逐步探索和验证相关的数据库Schema信息。通过这种方式,智能体可以在不依赖预先加载的完整Schema的情况下,完成Text-to-SQL解析。

技术框架:TRUST-SQL框架包含一个智能体和一个环境。智能体通过与环境交互,执行一系列动作,例如查询数据库Schema、执行SQL查询等。环境根据智能体的动作,返回相应的反馈信息。智能体采用一个结构化的四阶段协议,包括:(1) Schema探索,(2) Schema验证,(3) SQL生成,(4) SQL执行。该协议确保智能体能够以一种结构化的方式,逐步获取和验证相关的Schema信息。

关键创新:论文的关键创新在于提出了双轨GRPO(Dual-Track GRPO)策略。该策略通过应用token级别的masked advantages,将探索奖励与执行结果隔离,从而解决信用分配问题。传统的GRPO方法难以区分智能体在探索Schema时的行为和最终SQL执行结果之间的因果关系,导致信用分配不准确。双轨GRPO策略通过将探索和执行过程分开,并分别计算奖励,从而更准确地评估智能体的行为。

关键设计:TRUST-SQL框架使用Transformer模型作为智能体的核心组件。在训练过程中,使用强化学习算法GRPO进行优化。双轨GRPO策略的关键在于token级别的masked advantages的计算。具体来说,对于每个token,根据其属于Schema探索阶段还是SQL生成阶段,分别计算其advantage。此外,论文还设计了一个Schema验证机制,用于验证智能体获取的Schema信息的正确性。具体实现细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TRUST-SQL在五个基准测试上取得了显著的性能提升。在4B和8B变体上,TRUST-SQL相对于其基础模型分别实现了平均30.6%和16.6%的绝对改进。更重要的是,TRUST-SQL在完全没有预加载元数据的情况下,仍然能够与依赖Schema预填充的强大基线相匹配或超越,证明了其在未知Schema下的有效性。

🎯 应用场景

TRUST-SQL具有广泛的应用前景,可应用于企业级数据库查询、智能客服、数据分析等领域。该研究成果能够有效解决实际应用中数据库Schema复杂且难以获取的问题,提高Text-to-SQL系统的实用性和鲁棒性。未来,该技术有望进一步推广到其他需要与复杂环境交互的任务中。

📄 摘要(原文)

Text-to-SQL parsing has achieved remarkable progress under the Full Schema Assumption. However, this premise fails in real-world enterprise environments where databases contain hundreds of tables with massive noisy metadata. Rather than injecting the full schema upfront, an agent must actively identify and verify only the relevant subset, giving rise to the Unknown Schema scenario we study in this work. To address this, we propose TRUST-SQL (Truthful Reasoning with Unknown Schema via Tools). We formulate the task as a Partially Observable Markov Decision Process where our autonomous agent employs a structured four-phase protocol to ground reasoning in verified metadata. Crucially, this protocol provides a structural boundary for our novel Dual-Track GRPO strategy. By applying token-level masked advantages, this strategy isolates exploration rewards from execution outcomes to resolve credit assignment, yielding a 9.9% relative improvement over standard GRPO. Extensive experiments across five benchmarks demonstrate that TRUST-SQL achieves an average absolute improvement of 30.6% and 16.6% for the 4B and 8B variants respectively over their base models. Remarkably, despite operating entirely without pre-loaded metadata, our framework consistently matches or surpasses strong baselines that rely on schema prefilling.