A Careful Examination of Large Language Model Performance on Grade School Arithmetic

作者: Hugh Zhang, Jeff Da, Dean Lee, Vaughn Robinson, Catherine Wu, Will Song, Tiffany Zhao, Pranav Raja, Charlotte Zhuang, Dylan Slack, Qin Lyu, Sean Hendryx, Russell Kaplan, Michele Lunati, Summer Yue

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-05-01 (更新: 2024-11-22)

备注: 2024 NeurIPS Camera Ready (Datasets and Benchmarks Track)

💡 一句话要点

GSM1k：小学算术LLM基准测试，揭示数据集污染与过拟合问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 基准测试 数据集污染 过拟合

📋 核心要点

现有LLM在数学推理基准测试中表现出色，但可能存在数据集污染，导致性能虚高。
论文构建了与GSM8k相似的GSM1k基准，用于评估LLM的真实数学推理能力，避免数据泄露。
实验表明，部分LLM在GSM1k上性能显著下降，存在过拟合GSM8k的现象，但前沿模型泛化性较好。

📝 摘要（中文）

大型语言模型（LLM）在数学推理的许多基准测试中取得了令人瞩目的成功。然而，人们越来越担心，这种性能实际上反映了数据集污染，即与基准问题非常相似的数据泄露到训练数据中，而不是真正的推理能力。为了严格调查这一说法，我们委托创建了Grade School Math 1000（GSM1k）。GSM1k旨在镜像已建立的GSM8k基准的风格和复杂性，GSM8k是衡量基本数学推理的黄金标准。我们确保这两个基准在人类解决率、解决方案中的步骤数、答案幅度等重要指标上具有可比性。在GSM1k上评估领先的开源和闭源LLM时，我们观察到准确率下降高达8%，几个模型系列显示出几乎所有模型尺寸的系统性过拟合的证据。进一步的分析表明，模型生成GSM8k示例的概率与其GSM8k和GSM1k之间的性能差距之间存在正相关关系（Spearman's r^2 = 0.36），这表明一些模型可能部分记忆了GSM8k。然而，许多模型，尤其是前沿模型，显示出最小的过拟合迹象，并且所有模型都广泛地展示了对保证不在其训练数据中的新数学问题的泛化能力。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在小学算术问题上的真实推理能力评估问题。现有方法，特别是GSM8k基准测试，可能存在数据集污染，导致模型性能评估失真。模型可能通过记忆训练数据中的相似问题来获得高分，而非真正理解和解决问题。

核心思路：论文的核心思路是构建一个新的、与GSM8k相似但不存在数据泄露风险的基准测试集GSM1k。通过比较模型在GSM8k和GSM1k上的性能差异，可以评估模型是否存在过拟合现象，从而更准确地衡量模型的真实数学推理能力。

技术框架：论文主要包含以下几个阶段：1) 构建GSM1k数据集，确保其与GSM8k在难度、问题类型等方面具有可比性；2) 在GSM1k和GSM8k上评估一系列开源和闭源的LLM；3) 分析模型在两个数据集上的性能差异，评估过拟合程度；4) 分析模型生成GSM8k示例的概率与其性能差距之间的关系，验证数据集污染的影响。

关键创新：论文的关键创新在于构建了一个新的、高质量的小学算术基准测试集GSM1k，用于更可靠地评估LLM的数学推理能力。通过对比GSM8k和GSM1k的性能，揭示了现有基准测试可能存在的数据集污染问题，并提供了一种评估模型过拟合程度的方法。

关键设计：GSM1k的设计目标是与GSM8k在难度、问题类型、解题步骤等方面保持一致。论文作者可能采用了人工编写或数据增强等方法来生成GSM1k数据集，并仔细筛选以确保其质量。此外，论文还可能使用了Spearman相关系数等统计方法来分析模型性能与数据集污染之间的关系。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

实验结果表明，部分LLM在GSM1k上的准确率下降高达8%，表明存在显著的过拟合现象。Spearman相关性分析显示，模型生成GSM8k示例的概率与其在GSM8k和GSM1k上的性能差距之间存在正相关关系（r^2 = 0.36），进一步证实了数据集污染的影响。然而，一些前沿模型在GSM1k上表现良好，显示出较强的泛化能力。

🎯 应用场景

该研究成果可应用于更可靠地评估和比较不同LLM的数学推理能力，避免数据集污染带来的偏差。同时，该研究也提醒研究人员在构建基准测试集时，需要更加重视数据来源的纯净性，以确保评估结果的有效性。此外，该研究可以促进LLM在教育领域的应用，例如智能辅导系统，通过更准确地评估学生的数学能力，提供个性化的学习方案。

📄 摘要（原文）

Large language models (LLMs) have achieved impressive success on many benchmarks for mathematical reasoning. However, there is growing concern that some of this performance actually reflects dataset contamination, where data closely resembling benchmark questions leaks into the training data, instead of true reasoning ability. To investigate this claim rigorously, we commission Grade School Math 1000 (GSM1k). GSM1k is designed to mirror the style and complexity of the established GSM8k benchmark, the gold standard for measuring elementary mathematical reasoning. We ensure that the two benchmarks are comparable across important metrics such as human solve rates, number of steps in solution, answer magnitude, and more. When evaluating leading open- and closed-source LLMs on GSM1k, we observe accuracy drops of up to 8%, with several families of models showing evidence of systematic overfitting across almost all model sizes. Further analysis suggests a positive relationship (Spearman's r^2 = 0.36) between a model's probability of generating an example from GSM8k and its performance gap between GSM8k and GSM1k, suggesting that some models may have partially memorized GSM8k. Nevertheless, many models, especially those on the frontier, show minimal signs of overfitting, and all models broadly demonstrate generalization to novel math problems guaranteed to not be in their training data.