Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist

📄 arXiv: 2407.08733v2 📥 PDF

作者: Zihao Zhou, Shudong Liu, Maizhen Ning, Wei Liu, Jindong Wang, Derek F. Wong, Xiaowei Huang, Qiufeng Wang, Kaizhu Huang

分类: cs.CL

发布日期: 2024-07-11 (更新: 2024-10-08)

备注: 43 pages,Preprint


💡 一句话要点

提出MathCheck数学推理评估框架,提升LLM数学能力评估的泛化性和鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数学推理 大型语言模型 评估框架 泛化能力 鲁棒性测试 行为分析 多模态推理

📋 核心要点

  1. 现有数学推理基准测试过度关注问题解决,易导致模型过拟合,无法真实反映模型的数学推理能力。
  2. 提出MathCheck框架,通过任务泛化和鲁棒性测试的checklist,更全面地评估LLM的数学推理能力。
  3. 实验结果表明,MathCheck能更有效地反映模型的真实数学能力,并支持对模型行为的深入分析。

📝 摘要(中文)

大型语言模型(LLMs)卓越的数学推理能力是其强大能力的关键特征之一。如何全面地定义和评估LLMs的数学能力,甚至反映真实场景中的用户体验,已经成为一个关键问题。目前的基准测试主要集中在解决问题的能力上,存在模型过度拟合的风险,无法准确衡量真正的数学推理能力。本文认为,如果一个模型真正理解了一个问题,它应该能够稳健地应用于各种任务。为此,我们引入了MathCheck,这是一个精心设计的清单,用于测试任务的泛化性和推理的鲁棒性,以及一个自动生成清单的工具。MathCheck包括多个数学推理任务和鲁棒性测试,以促进对数学推理能力和行为测试的全面评估。利用MathCheck,我们开发了MathCheck-GSM和MathCheck-GEO,分别用于评估数学文本推理和多模态推理能力,作为GSM8k、GeoQA、UniGeo和Geometry3K等基准测试的升级版本。我们采用MathCheck-GSM和MathCheck-GEO来评估26个LLMs和17个MLLMs。结果表明,虽然像GPT-4o这样的前沿LLMs在清单上的各种能力方面继续表现出色,但许多其他模型系列表现出显著的下降。进一步的实验表明,与传统的数学基准测试相比,MathCheck更好地反映了真实的数学能力,并且更线性地代表了数学智能,从而支持了我们的设计。使用MathCheck,我们可以有效地进行信息丰富的行为分析,以深入研究模型。最后,我们表明我们的清单范例可以很容易地扩展到其他推理任务。

🔬 方法详解

问题定义:现有数学推理基准测试主要关注模型在特定数据集上的解题准确率,容易导致模型为了追求高分而进行过度拟合,从而无法真正衡量模型的泛化能力和鲁棒性。这些基准测试难以反映模型在真实世界场景下的数学推理能力,也难以进行深入的模型行为分析。

核心思路:MathCheck的核心思路是通过构建一个包含多种数学推理任务和鲁棒性测试的checklist,来更全面、更深入地评估LLM的数学推理能力。该checklist的设计旨在考察模型在不同任务类型、不同数据分布下的表现,以及模型对噪声和干扰的抵抗能力。通过这种方式,可以更准确地评估模型的真实数学能力,并发现模型在推理过程中的潜在问题。

技术框架:MathCheck框架主要包含以下几个模块:1) 任务定义模块:定义多种数学推理任务,例如算术运算、代数推理、几何推理等。2) 鲁棒性测试模块:设计多种鲁棒性测试,例如添加噪声、改变问题形式、引入干扰项等。3) 自动生成模块:开发自动生成checklist的工具,可以根据用户需求生成不同难度、不同类型的checklist。4) 评估模块:使用checklist对LLM进行评估,并生成详细的评估报告。

关键创新:MathCheck的关键创新在于其checklist的设计理念,它不再仅仅关注模型在特定数据集上的表现,而是更加关注模型的泛化能力和鲁棒性。此外,MathCheck还提供了一个自动生成checklist的工具,可以方便用户根据自己的需求定制评估方案。与现有方法相比,MathCheck能够更全面、更深入地评估LLM的数学推理能力,并发现模型在推理过程中的潜在问题。

关键设计:MathCheck-GSM和MathCheck-GEO分别针对数学文本推理和多模态推理能力进行评估。在任务设计上,考虑了不同难度级别和不同类型的数学问题。在鲁棒性测试上,采用了多种策略,例如添加噪声、改变问题形式、引入干扰项等。具体参数设置和损失函数根据不同的任务类型进行调整,以保证评估的有效性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用MathCheck评估的LLM,其性能表现与真实数学能力更相关,且呈现更线性的关系。在对26个LLM和17个MLLM的评估中,发现许多模型在MathCheck上的表现显著低于传统基准测试,表明MathCheck能更有效地揭示模型的真实数学能力。GPT-4o在MathCheck上表现优异,但其他模型系列表现出显著下降。

🎯 应用场景

MathCheck框架可应用于LLM的数学推理能力评估、模型调试和改进,以及教育领域。通过MathCheck,研究人员可以更全面地了解LLM的数学能力,并发现模型在推理过程中的潜在问题,从而有针对性地进行改进。在教育领域,MathCheck可以用于评估学生的数学能力,并为学生提供个性化的学习建议。

📄 摘要(原文)

Exceptional mathematical reasoning ability is one of the key features that demonstrate the power of large language models (LLMs). How to comprehensively define and evaluate the mathematical abilities of LLMs, and even reflect the user experience in real-world scenarios, has emerged as a critical issue. Current benchmarks predominantly concentrate on problem-solving capabilities, presenting a substantial risk of model overfitting and fails to accurately measure the genuine mathematical reasoning abilities. In this paper, we argue that if a model really understands a problem, it should be robustly applied across a diverse array of tasks. To this end, we introduce MathCheck, a well-designed checklist for testing task generalization and reasoning robustness, as well as an automatic tool to generate checklists efficiently. MathCheck includes multiple mathematical reasoning tasks and robustness tests to facilitate a comprehensive evaluation of both mathematical reasoning ability and behavior testing. Utilizing MathCheck, we develop MathCheck-GSM and MathCheck-GEO to assess math textual reasoning and multi-modal reasoning abilities, respectively, serving as upgraded versions of benchmarks including GSM8k, GeoQA, UniGeo, and Geometry3K. We adopt MathCheck-GSM and MathCheck-GEO to evaluate 26 LLMs and 17 MLLMs. Our results demonstrate that while frontier LLMs like GPT-4o continue to excel in various abilities on the checklist, many other model families exhibit a significant decline. Further experiments indicate that, compared to traditional math benchmarks, MathCheck better reflects true mathematical abilities and represents mathematical intelligence more linearly, thereby supporting our design. Using MathCheck, we can efficiently conduct informative behavior analysis to deeply investigate models. Finally, we show that our checklist paradigm can easily extend to other reasoning tasks.