Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges

📄 arXiv: 2502.08680v1 📥 PDF

作者: Safal Shrestha, Minwu Kim, Keith Ross

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-02-12


💡 一句话要点

提出GSM-Ranges数据集与新评估方法,评估LLM在不同数值范围下的数学推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 数值泛化 数据集生成 错误分析

📋 核心要点

  1. 现有数学推理评估benchmark数值范围有限,无法真实反映LLM在不同尺度下的问题解决能力。
  2. 论文提出GSM-Ranges数据集生成器,通过系统扰动数值,评估模型在不同数值尺度下的鲁棒性。
  3. 实验表明,随着数值复杂性增加,LLM的逻辑错误率显著上升,表明其数值泛化能力存在不足。

📝 摘要(中文)

大型语言模型(LLM)的数学推理能力通常使用数值范围有限的基准进行评估,无法反映真实世界中跨不同尺度的解决问题的能力。此外,现有评估方法大多只比较模型输出与真实答案,忽略了对推理过程的深入了解。为了解决这些局限性,我们引入了GSM-Ranges,这是一个从GSM8K派生的数据集生成器,它系统地扰动数学问题中的数值,以评估模型在不同数值尺度上的鲁棒性。此外,我们提出了一种新的评分方法,区分逻辑错误和非逻辑错误,从而提供对推理过程更精确的评估,超越了计算准确性。我们对各种模型的实验表明,随着数值复杂性的增加,逻辑错误率显著增加——高达14个百分点——这表明在处理分布外数值时存在普遍的弱点。此外,虽然模型在独立的算术任务中表现出很高的准确性,但当计算嵌入到文字问题中时,它们的性能会大幅下降。这些发现为全面评估LLM的数学推理能力提供了依据,并为未来改进语言模型中的数值泛化能力的研究方向提供了信息。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)数学推理评估,主要依赖于数值范围受限的benchmark,无法有效评估模型在实际应用中遇到的各种数值尺度下的问题。此外,传统的评估方法仅关注最终答案的正确性,忽略了模型推理过程中的逻辑错误,难以深入分析模型的推理能力瓶颈。因此,需要一种能够覆盖更广数值范围,并能区分逻辑错误和计算错误的评估方法。

核心思路:论文的核心思路是构建一个可以系统性地改变数学问题中数值范围的数据集生成器,并设计一种能够区分逻辑错误和非逻辑错误的评估方法。通过这种方式,可以更全面地评估LLM在不同数值尺度下的数学推理能力,并深入了解模型在推理过程中出现的错误类型。

技术框架:论文主要包含两个核心部分:GSM-Ranges数据集生成器和新的评分方法。GSM-Ranges基于GSM8K数据集,通过随机扰动问题中的数值,生成具有不同数值范围的数学问题。新的评分方法则将错误分为逻辑错误和非逻辑错误,逻辑错误指的是推理步骤上的错误,而非逻辑错误则指的是计算错误。通过分析不同类型的错误,可以更精确地评估模型的推理能力。

关键创新:论文的关键创新在于提出了GSM-Ranges数据集生成器和区分逻辑错误与非逻辑错误的评分方法。GSM-Ranges能够系统性地扩展数学问题的数值范围,从而更全面地评估模型的数值泛化能力。区分逻辑错误和非逻辑错误的评分方法,则能够更深入地分析模型在推理过程中出现的错误类型,为改进模型提供更具体的指导。

关键设计:GSM-Ranges数据集生成器通过随机缩放和偏移GSM8K数据集中的数值来创建新的问题。评分方法首先检查模型输出的推理步骤是否合理(逻辑正确),如果推理步骤不合理,则判定为逻辑错误。如果推理步骤合理,则检查计算结果是否正确,如果计算结果不正确,则判定为非逻辑错误(计算错误)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,随着数值复杂性的增加,LLM的逻辑错误率显著增加,最高可达14个百分点,这表明模型在处理分布外数值时存在明显的弱点。此外,虽然模型在独立的算术任务中表现出很高的准确性,但当计算嵌入到文字问题中时,它们的性能会大幅下降。这些结果突出了LLM在数学推理方面存在的挑战,并为未来的研究方向提供了重要的参考。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型在金融、科学计算、工程等领域的数学推理能力。通过GSM-Ranges数据集和新的评估方法,可以更全面地了解模型在处理不同数值范围问题时的表现,并针对性地改进模型的数值泛化能力,提升其在实际应用中的可靠性。

📄 摘要(原文)

Mathematical reasoning in Large Language Models (LLMs) is often evaluated using benchmarks with limited numerical ranges, failing to reflect real-world problem-solving across diverse scales. Furthermore, most existing evaluation methods only compare model outputs to ground-truth answers, obscuring insights into reasoning processes. To address these limitations, we introduce GSM-Ranges, a dataset generator derived from GSM8K that systematically perturbs numerical values in math problems to assess model robustness across varying numerical scales. Additionally, we propose a novel grading methodology that distinguishes between logical and non-logical errors, offering a more precise evaluation of reasoning processes beyond computational accuracy. Our experiments with various models reveal a significant increase in logical error rates-up to 14 percentage points-as numerical complexity rises, demonstrating a general weakness in reasoning with out-of-distribution numerical values. Moreover, while models demonstrate high accuracy on standalone arithmetic tasks, their performance deteriorates substantially when computations are embedded within word problems. These findings provide a comprehensive evaluation of LLMs' mathematical reasoning capabilities and inform future research directions for improving numerical generalization in language models.