Evaluating Mathematical Reasoning Across Large Language Models: A Fine-Grained Approach

📄 arXiv: 2503.10573v2 📥 PDF

作者: Afrar Jahin, Arif Hassan Zidan, Wei Zhang, Yu Bao, Tianming Liu

分类: cs.LG

发布日期: 2025-03-13 (更新: 2025-05-19)


💡 一句话要点

系统评估大型语言模型数学推理能力,揭示模型架构与性能关联

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 模型评估 DeepSeek Gemini 形式逻辑 蒸馏训练

📋 核心要点

  1. 现有工作对LLM数学推理能力的评估缺乏深度和广度,难以全面了解不同模型家族的性能。
  2. 论文通过系统评估八个主流LLM在三个数学推理基准数据集上的表现,分析模型架构与性能的关系。
  3. 实验表明DeepSeek-R1在形式逻辑方面表现突出,蒸馏模型性能下降,Gemini 2.0 Flash响应速度最快。

📝 摘要(中文)

随着人工智能的快速发展,大型语言模型(LLMs)对医疗、工程、科学、教育和数学推理等领域产生了重大影响。其中,数学推理仍然是一项特别具有挑战性的能力,通常需要多步骤逻辑和抽象概括。虽然之前的工作已经探索了LLM在推理任务上的表现,但跨模型家族的深度和广度的综合评估仍然有限。本研究系统地评估了八个领先LLM的数学推理能力,包括两个最新的DeepSeek模型,使用了三个独立的基准数据集。分析揭示了几个关键发现:(1) DeepSeek-R1在大多数领域与o1具有竞争力,并在MMLU形式逻辑基准上实现了最高的准确率;(2) 蒸馏变体,如DeepSeek-1.5B,表现出显著的性能下降;(3) Gemini 2.0 Flash实现了最低的响应延迟。除了定量指标外,我们还探讨了架构选择、训练范式和优化策略如何导致推理性能的变化。这些发现为当前LLM在数学领域的能力和局限性提供了新的见解,并为开发更符合严格推理需求的未来模型提供了指导。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在数学推理能力评估方面存在的不足。现有方法通常缺乏对不同模型家族的全面、细致的评估,难以深入了解模型架构、训练方法等因素对数学推理性能的影响。此外,如何针对性地提升LLM的数学推理能力也是一个重要的研究问题。

核心思路:论文的核心思路是通过构建一个系统性的评估框架,对多个主流LLM在不同的数学推理基准数据集上进行测试和分析。通过对比不同模型的性能表现,并结合模型架构、训练范式等因素,揭示影响LLM数学推理能力的关键因素,为未来模型的开发提供指导。

技术框架:论文的技术框架主要包括以下几个部分:1) 选择具有代表性的LLM,包括DeepSeek、Gemini等;2) 选择合适的数学推理基准数据集,如MMLU Formal Logic等;3) 设计评估指标,包括准确率、响应延迟等;4) 进行实验,收集数据;5) 对实验结果进行分析,探讨模型架构、训练范式等因素对性能的影响。

关键创新:论文的关键创新在于其系统性和细致性。它不仅评估了多个LLM在数学推理任务上的表现,还深入分析了模型架构、训练范式等因素对性能的影响。此外,论文还关注了蒸馏模型和响应延迟等问题,为LLM的数学推理能力评估提供了更全面的视角。

关键设计:论文的关键设计包括:1) 选择了具有代表性的LLM,覆盖了不同架构和训练方法;2) 选择了多个数学推理基准数据集,涵盖了不同的数学领域和难度;3) 采用了多种评估指标,包括准确率和响应延迟,以全面评估模型的性能;4) 对实验结果进行了深入分析,探讨了模型架构、训练范式等因素对性能的影响。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细描述,属于各模型的固有属性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DeepSeek-R1在MMLU形式逻辑基准上取得了最高的准确率,表明其在形式逻辑推理方面具有优势。同时,研究发现蒸馏模型(如DeepSeek-1.5B)的性能显著下降,表明模型压缩可能会牺牲推理能力。Gemini 2.0 Flash实现了最低的响应延迟,适合对实时性要求较高的应用场景。

🎯 应用场景

该研究成果可应用于教育、科研、金融等领域,帮助提升LLM在数学问题求解、逻辑推理等方面的能力。通过深入理解不同模型架构和训练方法对数学推理性能的影响,可以指导未来LLM的开发,使其更好地服务于需要复杂推理的任务。

📄 摘要(原文)

With the rapid advancement of Artificial Intelligence (AI), Large Language Models (LLMs) have significantly impacted a wide array of domains, including healthcare, engineering, science, education, and mathematical reasoning. Among these, mathematical reasoning remains a particularly challenging capability, often requiring multi-step logic and abstract generalization. While prior work has explored LLM performance on reasoning tasks, comprehensive evaluations that span both depth and breadth across model families remain limited. In this study, we present a systematic evaluation of mathematical reasoning abilities across eight leading LLMs, including two recent DeepSeek models, using three independent benchmark datasets. Our analyses reveal several key findings: (1) DeepSeek-R1 performs competitively with o1 across most domains and achieves the highest accuracy on the MMLU Formal Logic benchmark; (2) distilled variants, such as DeepSeek-1.5B, exhibit substantial performance degradation; and (3) Gemini 2.0 Flash achieves the lowest response latency. Beyond quantitative metrics, we explore how architectural choices, training paradigms, and optimization strategies contribute to variation in reasoning performance. These findings provide new insights into the capabilities and limitations of current LLMs in mathematical domains, and offer guidance for the development of future models better aligned with rigorous reasoning demands.