SPENCE: A Syntactic Probe for Detecting Contamination in NL2SQL Benchmarks
作者: Mohammadtaher Safarzadeh, Hitesh Laxmichand Patel, Afshin Orojlooyjadid, Graham Horwood, Dan Roth
分类: cs.CL, cs.AI, cs.DB
发布日期: 2026-04-20
备注: ACL 2026 Main Conference
💡 一句话要点
SPENCE:一种用于检测NL2SQL基准测试集中污染的句法探针
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: NL2SQL 数据污染 句法探测 基准测试 大型语言模型
📋 核心要点
- 现有NL2SQL基准测试可能存在数据污染,导致LLM性能评估虚高,无法真实反映模型的泛化能力。
- SPENCE通过系统生成测试查询的句法变体,并观察模型在不同句法差异下的性能变化,从而检测污染。
- 实验表明,较早的基准测试集(如Spider)更容易受到污染,而较新的BIRD数据集污染程度较低。
📝 摘要(中文)
大型语言模型(LLMs)在自然语言到SQL(NL2SQL)基准测试中取得了优异的性能,但其报告的准确性可能因训练期间看到的基准查询或结构相似模式的污染而膨胀。我们引入了SPENCE(用于评估NL2SQL污染效应的句法探测),这是一个受控的句法探测框架,用于检测和量化此类污染。SPENCE系统地生成了四个广泛使用的NL2SQL数据集(Spider、SParC、CoSQL和较新的BIRD基准)的测试查询的句法变体。我们使用SPENCE来评估多个基于执行的高容量LLM。对于每个模型,我们测量了执行准确率在不断增加的句法差异水平上的变化,并使用Kendall's tau和bootstrap置信区间量化了排序敏感性。通过将这些鲁棒性趋势与基准发布日期对齐,我们观察到一个清晰的时间梯度:较旧的基准(如Spider)表现出最强的负值,因此训练泄漏的可能性最高,而较新的BIRD数据集显示出最小的敏感性,并且似乎基本上未被污染。总之,这些发现强调了时间上下文相关的句法探测评估对于可信的NL2SQL基准测试的重要性。
🔬 方法详解
问题定义:论文旨在解决NL2SQL基准测试中数据污染的问题。现有的大型语言模型在这些基准测试上表现出色,但这种性能可能受到训练数据中存在的与测试集相似的查询的影响,导致模型在测试集上表现良好,但实际上并没有真正理解自然语言到SQL的转换。这种数据污染使得评估结果不可靠,无法准确反映模型的真实能力。
核心思路:论文的核心思路是通过系统性地生成测试查询的句法变体,并观察模型在这些变体上的性能变化来检测数据污染。如果模型在句法变体上的性能显著下降,则表明模型可能过度依赖于训练数据中的特定句法结构,而不是真正理解查询的语义。
技术框架:SPENCE框架包含以下几个主要步骤:1) 选择NL2SQL基准测试集;2) 为测试集中的每个查询生成一系列句法变体,这些变体在句法结构上与原始查询有所不同,但语义保持不变;3) 使用大型语言模型在原始查询和句法变体上执行NL2SQL任务;4) 测量模型在不同句法差异水平上的执行准确率;5) 使用Kendall's tau等指标量化模型对句法变化的敏感性,并分析结果以检测数据污染。
关键创新:SPENCE的关键创新在于提出了一种系统性的句法探测方法,用于检测NL2SQL基准测试中的数据污染。与传统的评估方法相比,SPENCE能够更有效地识别模型对特定句法结构的依赖,从而更准确地评估模型的泛化能力。此外,SPENCE还提供了一种量化数据污染程度的方法,可以帮助研究人员更好地了解不同基准测试集的质量。
关键设计:SPENCE的关键设计包括:1) 句法变体的生成策略,需要确保变体在句法结构上有所不同,但语义保持不变;2) 句法差异的度量方法,需要能够量化原始查询和句法变体之间的差异程度;3) 排序敏感性的评估指标,例如Kendall's tau,用于衡量模型在不同句法变体上的性能排序与句法差异程度之间的相关性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SPENCE能够有效检测NL2SQL基准测试中的数据污染。例如,在Spider数据集上,模型的执行准确率随着句法差异的增加而显著下降,表明该数据集存在严重的污染。相比之下,在较新的BIRD数据集上,模型的性能对句法变化的敏感性较低,表明该数据集的污染程度较低。Kendall's tau指标也证实了这些发现,Spider数据集的tau值明显低于BIRD数据集。
🎯 应用场景
SPENCE框架可用于评估和净化现有的NL2SQL基准测试集,确保评估结果的可靠性。此外,该方法还可以应用于其他自然语言处理任务,例如文本摘要、机器翻译等,以检测和缓解数据污染问题,提高模型评估的准确性。未来,SPENCE可以促进更公平、更可靠的LLM评估,推动NL2SQL技术的发展。
📄 摘要(原文)
Large language models (LLMs) have achieved strong performance on natural language to SQL (NL2SQL) benchmarks, yet their reported accuracy may be inflated by contamination from benchmark queries or structurally similar patterns seen during training. We introduce SPENCE (Syntactic Probing and Evaluation of NL2SQL Contamination Effects), a controlled syntactic probing framework for detecting and quantifying such contamination. SPENCE systematically generates syntactic variants of test queries for four widely used NL2SQL datasets-Spider, SParC, CoSQL, and the newer BIRD benchmark. We use SPENCE to evaluate multiple high-capacity LLMs under execution-based scoring. For each model, we measure changes in execution accuracy across increasing levels of syntactic divergence and quantify rank sensitivity using Kendall's tau with bootstrap confidence intervals. By aligning these robustness trends with benchmark release dates, we observe a clear temporal gradient: older benchmarks such as Spider exhibit the strongest negative values and thus the highest likelihood of training leakage, whereas the more recent BIRD dataset shows minimal sensitivity and appears largely uncontaminated. Together, these findings highlight the importance of temporally contextualized, syntactic-probing evaluation for trustworthy NL2SQL benchmarking.