LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs

📄 arXiv: 2406.05194v2 📥 PDF

作者: Arash Gholami Davoodi, Seyed Pouyan Mousavi Davoudi, Pouya Pezeshkpour

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-06-07 (更新: 2025-03-29)


💡 一句话要点

提出数学主题树基准(MaTT),用于全面评估大型语言模型(LLMs)的数学推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 基准测试 思维链 模型评估

📋 核心要点

  1. 现有LLM数学推理评估主要集中于特定主题,缺乏对模型是否真正进行推理的全面评估。
  2. 提出MaTT基准,包含1958个问题,覆盖广泛数学主题,并提供详细的层级主题链,用于更深入的评估。
  3. 实验表明,即使是GPT-4在MaTT上的准确率也仅为54%,且思维链提示效果不明显,表明LLM的数学推理能力仍有提升空间。

📝 摘要(中文)

大型语言模型(LLMs)在数学推理方面表现出令人印象深刻的能力。然而,尽管取得了这些成就,但目前的评估主要局限于特定的数学主题,LLMs是否真正参与推理仍不清楚。为了解决这些差距,我们提出了数学主题树(MaTT)基准,这是一个具有挑战性和结构化的基准,提供了涵盖广泛数学学科的1958个问题,每个问题都配有详细的层级主题链。在使用MaTT基准评估不同的LLMs后,我们发现最先进的模型GPT-4在多项选择场景中仅达到54%的准确率。有趣的是,即使采用思维链提示,我们也观察到大多没有显著的改进。此外,当在不提供选项的情况下提出问题时,LLMs的准确率显著降低,降幅高达24.2个百分点。对LLMs在不同主题上的表现进行进一步的详细分析表明,即使在同一通用数学领域内,密切相关的子主题之间也存在显著差异。为了查明LLMs性能背后的原因,我们对GPT-4在有选项的情况下生成的解释的完整性和正确性进行了手动评估。令人惊讶的是,我们发现在模型提供正确答案的实例中,只有53.3%的解释被认为是完整和准确的,即模型进行了真正的推理。

🔬 方法详解

问题定义:现有的大型语言模型在数学推理方面取得了显著进展,但目前的评估方法存在局限性,主要集中在特定数学领域,缺乏对模型深层推理能力的考察。此外,现有评估方法难以区分模型是真正理解并解决问题,还是仅仅通过模式匹配或记忆来获得答案。因此,需要一个更全面、更具挑战性的基准来评估LLMs的数学推理能力。

核心思路:论文的核心思路是构建一个名为Mathematical Topics Tree (MaTT) 的基准数据集,该数据集具有以下特点:覆盖广泛的数学主题,问题具有层次结构,并提供详细的解题步骤。通过分析LLMs在MaTT上的表现,可以更深入地了解LLMs的数学推理能力,并发现其在不同数学领域的优势和不足。

技术框架:MaTT基准数据集的构建包括以下几个主要步骤:1) 确定数学主题的范围和层次结构;2) 收集或生成与每个主题相关的问题;3) 为每个问题提供详细的解题步骤;4) 对数据集进行验证和清洗。评估LLMs时,使用MaTT数据集作为输入,并分析LLMs的输出结果,包括答案的正确性、解题步骤的完整性和正确性等。

关键创新:MaTT基准数据集的关键创新在于其全面性和层次性。与现有的数学推理数据集相比,MaTT覆盖了更广泛的数学主题,并提供了更详细的解题步骤。此外,MaTT的层次结构使得可以更细粒度地评估LLMs在不同数学领域的表现。

关键设计:MaTT数据集包含1958个问题,涵盖代数、几何、微积分、概率统计等多个数学领域。每个问题都配有详细的层级主题链,例如:算术 -> 加法 -> 多位数加法。评估过程中,使用了多项选择题和开放式问题两种形式。对于开放式问题,需要LLMs给出详细的解题步骤。评估指标包括答案的准确率、解题步骤的完整性和正确性等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是GPT-4在MaTT基准上的准确率也仅为54%,且在不提供选项的情况下,准确率显著下降高达24.2%。即使采用思维链提示,性能提升也不明显。人工评估发现,GPT-4在给出正确答案的情况下,只有53.3%的解释是完整和准确的,表明LLMs的数学推理能力仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型的数学推理能力,推动AI在教育、科研等领域的应用。通过MaTT基准,可以更准确地了解LLMs的优势和不足,从而有针对性地进行模型优化和算法改进。此外,该基准还可以用于开发更智能的数学教育工具,辅助学生学习和理解数学知识。

📄 摘要(原文)

Large language models (LLMs) demonstrate impressive capabilities in mathematical reasoning. However, despite these achievements, current evaluations are mostly limited to specific mathematical topics, and it remains unclear whether LLMs are genuinely engaging in reasoning. To address these gaps, we present the Mathematical Topics Tree (MaTT) benchmark, a challenging and structured benchmark that offers 1,958 questions across a wide array of mathematical subjects, each paired with a detailed hierarchical chain of topics. Upon assessing different LLMs using the MaTT benchmark, we find that the most advanced model, GPT-4, achieved a mere 54\% accuracy in a multiple-choice scenario. Interestingly, even when employing Chain-of-Thought prompting, we observe mostly no notable improvement. Moreover, LLMs accuracy dramatically reduced by up to 24.2 percentage point when the questions were presented without providing choices. Further detailed analysis of the LLMs' performance across a range of topics showed significant discrepancy even for closely related subtopics within the same general mathematical area. In an effort to pinpoint the reasons behind LLMs performances, we conducted a manual evaluation of the completeness and correctness of the explanations generated by GPT-4 when choices were available. Surprisingly, we find that in only 53.3\% of the instances where the model provided a correct answer, the accompanying explanations were deemed complete and accurate, i.e., the model engaged in genuine reasoning.