The Importance of Being Statistically Earnest: A Critical Re-evaluation of GSM-Symbolic

📄 arXiv: 2605.28700v1 📥 PDF

作者: Dominika Agnieszka Długosz, Arlindo Oliveira, Natalia Díaz Rodríguez

分类: cs.AI, cs.CL

发布日期: 2026-05-27

备注: 38 pages, 11 figures. Submitted to ACL ARR / EMNLP 2026


💡 一句话要点

重新评估GSM-Symbolic基准,揭示LLM推理能力评估的统计学陷阱

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理能力评估 统计显著性 广义线性混合模型 GSM-Symbolic 数据集偏差 错误分析

📋 核心要点

  1. GSM-Symbolic基准测试声称LLM缺乏推理能力,但该结论的统计学基础薄弱,需要重新评估。
  2. 本文使用广义线性混合模型,考虑问题随机效应,并控制大数效应,以更严谨地评估LLM性能。
  3. 实验发现,只有部分模型性能显著下降,且存在模型特定的失败模式,否定了笼统的LLM推理能力不足的结论。

📝 摘要(中文)

GSM-Symbolic基准测试表明,大型语言模型(LLMs)在GSM8K问题的模板生成变体上表现出一致的性能下降,并由此得出结论,认为这些模型缺乏真正的推理能力。本文认为这一结论缺乏稳固的统计基础。通过使用广义线性混合模型和每个问题的随机效应重新评估20个开源模型,发现只有一半的模型在原始提示格式下表现出统计上显著的性能变化。此外,本文还发现了一个先前未被承认的因素:主要的GSM-Symbolic数据集包含与GSM-Base相比,问题文本中较大整数的系统性分布偏移(K-S统计量=0.12,p < 0.001),这与原始作者的说法相矛盾。控制这种大数效应解释了大约一半剩余情况的显著性。在具有统计显著性能差异的模型中,本文识别出不同的、模型特定的失败模式,包括变量绑定的脆弱性、算术限制和双重任务干扰,强调了关于LLM推理的笼统说法在统计上是不成熟的,并且在机制上具有误导性。

🔬 方法详解

问题定义:GSM-Symbolic基准测试旨在评估LLM在数学问题上的推理能力,但其结论(LLM缺乏真正的推理能力)基于对LLM在模板生成问题上的性能下降的观察。现有方法的痛点在于,没有充分考虑统计学上的严谨性,例如问题本身的随机效应和数据集的分布偏移,可能导致对LLM推理能力的错误判断。

核心思路:本文的核心解决思路是采用更严谨的统计方法,即广义线性混合模型,来重新评估LLM在GSM-Symbolic基准测试上的表现。通过引入每个问题的随机效应,可以更好地控制问题本身的差异,从而更准确地评估LLM的性能变化。同时,本文还关注到GSM-Symbolic数据集与原始GSM8K数据集在数字分布上的差异,并控制这种差异的影响。

技术框架:本文的技术框架主要包括以下几个步骤:1) 重新运行GSM-Symbolic基准测试,收集20个开源LLM在原始提示格式下的性能数据。2) 使用广义线性混合模型对性能数据进行分析,模型中包含每个问题的随机效应。3) 检测GSM-Symbolic数据集与GSM-Base数据集在数字分布上的差异,并使用K-S检验进行统计显著性验证。4) 控制数字分布差异的影响,重新评估LLM的性能变化。5) 对具有统计显著性能差异的模型进行错误分析,识别模型特定的失败模式。

关键创新:本文最重要的技术创新点在于,它强调了在评估LLM推理能力时,统计学严谨性的重要性。通过引入广义线性混合模型和控制数据集分布差异,本文能够更准确地评估LLM的性能变化,并避免对LLM推理能力的错误判断。此外,本文还识别出模型特定的失败模式,为进一步改进LLM的推理能力提供了有价值的线索。

关键设计:本文的关键设计包括:1) 使用广义线性混合模型,其中包含每个问题的随机效应,以控制问题本身的差异。2) 使用K-S检验来检测GSM-Symbolic数据集与GSM-Base数据集在数字分布上的差异。3) 对具有统计显著性能差异的模型进行错误分析,识别模型特定的失败模式,例如变量绑定的脆弱性、算术限制和双重任务干扰。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,只有一半的开源LLM在GSM-Symbolic基准测试中表现出统计上显著的性能下降。通过控制大数效应,显著性进一步降低。此外,研究还揭示了模型特定的失败模式,例如变量绑定脆弱性和算术限制,这些发现为改进LLM的推理能力提供了重要线索。

🎯 应用场景

该研究成果可应用于更可靠地评估和改进大型语言模型的推理能力。通过更严谨的统计方法,可以避免对LLM能力的过度解读或低估,从而指导LLM的开发和应用,例如在教育、金融和科学研究等领域,提高LLM解决复杂问题的能力。

📄 摘要(原文)

The GSM-Symbolic benchmark (Mirzadeh et al., 2025) reported consistent performance drops across 25 Large Language Models (LLMs) when tested on template-generated variants of GSM8K problems, concluding that the models lack genuine reasoning capabilities. We argue that this conclusion rests on shaky statistical ground. Re-evaluating 20 open-weight models using Generalised Linear Mixed Models with per-question random effects, we find that only half exhibit statistically significant performance changes under the original prompt format. Moreover, we identify a previously unacknowledged factor: the main GSM-Symbolic dataset contains a systematically shifted distribution of larger integers in problem texts relative to GSM-Base (K-S statistic = 0.12, p < 0.001), contradicting the original authors' claims. Controlling for this large number effect accounts for significance in roughly half the remaining cases. Among models with statistically significant performance deltas, we identify distinct, model-specific failure profiles - including fragility of variable binding, arithmetic limitations, and dual-task interference - underscoring that blanket claims about LLM reasoning are both statistically premature and mechanistically misleading.