UGMathBench: A Diverse and Dynamic Benchmark for Undergraduate-Level Mathematical Reasoning with Large Language Models

📄 arXiv: 2501.13766v2 📥 PDF

作者: Xin Xu, Jiaxin Zhang, Tianhao Chen, Zitong Chao, Jishan Hu, Can Yang

分类: cs.CL, cs.AI

发布日期: 2025-01-23 (更新: 2025-02-25)

备注: Accepted to ICLR 2025

期刊: International Conference on Learning Representations (ICLR 2025)

🔗 代码/项目: GITHUB


💡 一句话要点

UGMathBench:一个用于评估大语言模型本科数学推理能力的多元动态基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数学推理 基准测试 本科数学 有效准确率 推理差距 模型评估

📋 核心要点

  1. 现有数学推理基准缺乏对本科水平数学问题的充分覆盖,且可能存在测试集污染,难以公平评估LLM的数学能力。
  2. UGMathBench通过构建包含5062个问题、16个学科和111个主题的多元动态基准,并为每个问题提供多个随机版本,来解决上述问题。
  3. 实验表明,现有LLM在UGMathBench上的有效准确率较低,且推理鲁棒性存在较大差距,表明需要进一步研究更强大的推理模型。

📝 摘要(中文)

大型语言模型(LLM)在数学推理方面取得了显著进展,这突显了对其能力进行全面和公平评估的需求。然而,现有的基准测试通常存在不足,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集污染的影响。为了解决这些问题,我们推出了UGMathBench,这是一个专门为评估LLM的本科数学推理能力而设计的多元动态基准。UGMathBench包含来自16个学科和111个主题的5062个问题,具有10种不同的答案类型。每个问题包括三个随机版本,并计划在领先的开源LLM在UGMathBench中达到饱和时发布更多版本。此外,我们提出了两个关键指标:有效准确率(EAcc),用于衡量所有三个版本中正确解决的问题的百分比;以及推理差距(Δ),通过计算所有版本的平均准确率与EAcc之间的差异来评估推理鲁棒性。我们对23个领先LLM的广泛评估表明,OpenAI-o1-mini实现了最高的EAcc,为56.3%,并且在不同的模型中观察到较大的Δ值。这突出了未来研究的必要性,旨在开发具有高EAcc和Δ=0的“大型推理模型”。我们预计UGMathBench及其详细的评估代码的发布将成为推动LLM解决数学问题的重要资源。

🔬 方法详解

问题定义:论文旨在解决现有大语言模型(LLM)在本科数学推理能力评估中存在的不足。现有基准测试要么覆盖范围不够广泛,无法充分评估LLM在不同数学领域的推理能力,要么存在测试集污染的风险,导致评估结果失真。这些问题阻碍了LLM在数学推理方面的进一步发展。

核心思路:论文的核心思路是构建一个更加全面、动态且无污染的本科数学推理基准UGMathBench。通过增加问题数量、学科覆盖范围和问题变体,提高基准的评估能力和鲁棒性。同时,引入新的评估指标,更准确地衡量LLM的推理能力和稳定性。

技术框架:UGMathBench的整体框架包括以下几个主要部分:1) 问题收集与整理:从多个来源收集本科水平的数学问题,并进行整理和分类;2) 问题多样化:为每个问题生成多个随机版本,增加问题的多样性;3) 基准构建:将整理好的问题和问题变体构建成UGMathBench基准;4) 模型评估:使用UGMathBench评估现有LLM的数学推理能力;5) 指标计算:计算有效准确率(EAcc)和推理差距(Δ)等指标,评估模型的性能。

关键创新:UGMathBench的关键创新在于其多元性和动态性。多元性体现在问题覆盖范围广泛,包含16个学科和111个主题。动态性体现在为每个问题提供多个随机版本,并计划在LLM性能饱和时发布更多版本,以保持基准的挑战性。此外,提出的有效准确率(EAcc)和推理差距(Δ)指标,能够更全面地评估LLM的推理能力和鲁棒性。与现有方法相比,UGMathBench能够更准确、更全面地评估LLM的本科数学推理能力。

关键设计:UGMathBench的关键设计包括:1) 问题数量:包含5062个问题,保证了基准的覆盖范围;2) 问题变体:每个问题包含三个随机版本,增加了问题的多样性;3) 答案类型:包含10种不同的答案类型,增加了问题的复杂性;4) 评估指标:使用有效准确率(EAcc)和推理差距(Δ)等指标,更全面地评估模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OpenAI-o1-mini在UGMathBench上取得了最高的有效准确率(EAcc),为56.3%。同时,观察到不同模型之间存在较大的推理差距(Δ),表明现有LLM在推理鲁棒性方面仍有很大的提升空间。这些结果突出了开发具有更高EAcc和更小Δ值的“大型推理模型”的重要性。

🎯 应用场景

UGMathBench可用于评估和比较不同LLM在本科数学领域的推理能力,推动LLM在数学教育、科研等领域的应用。该基准能够帮助研究人员更好地了解LLM的优势和不足,从而开发出更强大的数学推理模型,并应用于智能辅导系统、自动化数学证明等场景,提升数学学习和研究的效率。

📄 摘要(原文)

Large Language Models (LLMs) have made significant strides in mathematical reasoning, underscoring the need for a comprehensive and fair evaluation of their capabilities. However, existing benchmarks often fall short, either lacking extensive coverage of undergraduate-level mathematical problems or probably suffering from test-set contamination. To address these issues, we introduce UGMathBench, a diverse and dynamic benchmark specifically designed for evaluating undergraduate-level mathematical reasoning with LLMs. UGMathBench comprises 5,062 problems across 16 subjects and 111 topics, featuring 10 distinct answer types. Each problem includes three randomized versions, with additional versions planned for release as leading open-source LLMs become saturated in UGMathBench. Furthermore, we propose two key metrics: effective accuracy (EAcc), which measures the percentage of correctly solved problems across all three versions, and reasoning gap ($Δ$), which assesses reasoning robustness by calculating the difference between the average accuracy across all versions and EAcc. Our extensive evaluation of 23 leading LLMs reveals that the highest EAcc achieved is 56.3\% by OpenAI-o1-mini, with large $Δ$ values observed across different models. This highlights the need for future research aimed at developing "large reasoning models" with high EAcc and $Δ= 0$. We anticipate that the release of UGMathBench, along with its detailed evaluation codes, will serve as a valuable resource to advance the development of LLMs in solving mathematical problems. Codes and data are available at https://github.com/YangLabHKUST/UGMathBench