Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad

📄 arXiv: 2503.21934v5 📥 PDF

作者: Ivo Petrov, Jasper Dekoninck, Lyuben Baltadzhiev, Maria Drencheva, Kristian Minchev, Mislav Balunović, Nikola Jovanović, Martin Vechev

分类: cs.CL

发布日期: 2025-03-27 (更新: 2025-09-04)


💡 一句话要点

评估LLM在2025年美国数学奥林匹克竞赛中的解题能力:证明还是虚张声势?

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 证明生成 USAMO 模型评估

📋 核心要点

  1. 现有数学基准测试仅评估LLM的最终答案,忽略了数学推理和证明过程,无法真实反映其数学能力。
  2. 本文通过人工评估LLM在USAMO问题上的完整解题过程,分析其推理能力,而非仅关注最终答案。
  3. 实验结果表明,当前LLM在解决高难度数学问题时表现不佳,需要进一步提升推理和证明能力。

📝 摘要(中文)

本文针对大型语言模型(LLM)在数学推理能力上的评估提出了新的视角。现有数学基准测试,如MathArena,仅基于最终数值答案评估模型,忽略了严格的推理和证明生成,而这对于实际数学任务至关重要。为了解决这个问题,本文对LLM在具有挑战性的数学问题上的完整解题推理过程进行了全面评估。通过专家人工标注,评估了多个先进推理模型在2025年美国数学奥林匹克竞赛(USAMO)六道问题上的表现。结果表明,所有测试模型都表现不佳,只有Gemini-2.5-Pro取得了25%的非零分数,而其他模型均低于5%。通过对推理过程的详细分析,识别了最常见的失败模式,并发现了模型训练优化策略产生的一些不良影响。总体而言,结果表明当前LLM在严格的数学推理任务中表现不足,需要在推理和证明生成能力方面进行重大改进。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在解决复杂数学问题时的推理能力,特别是证明题。现有方法主要关注LLM能否给出正确的最终答案,而忽略了其推理过程的正确性和完整性。这种评估方式无法准确反映LLM的真实数学水平,也无法帮助我们理解LLM的推理缺陷。因此,论文关注的问题是:LLM能否像人类数学家一样,给出完整、严谨的数学证明?现有方法的痛点在于无法区分LLM是真正理解了数学原理,还是仅仅通过某种方式“猜”对了答案。

核心思路:论文的核心思路是,通过人工评估LLM在解决高难度数学问题(如USAMO试题)时的完整解题过程,来判断其是否具备真正的数学推理能力。这种评估方式不仅关注最终答案的正确性,更关注解题步骤的逻辑性和严谨性。如果LLM能够给出清晰、完整的证明过程,并且每一步都符合数学原理,那么就可以认为它具备一定的数学推理能力。反之,如果LLM的解题过程存在逻辑漏洞或错误,即使最终答案正确,也不能认为它真正理解了问题。

技术框架:论文的技术框架主要包括以下几个步骤:1. 选择合适的数学问题:选择具有挑战性的数学竞赛题目(如USAMO试题),这些题目需要复杂的推理和证明过程。2. 让LLM尝试解决这些问题,并记录其完整的解题过程。3. 聘请专业的数学家或数学教师作为评估人员,对LLM的解题过程进行逐行分析,判断其逻辑性和严谨性。4. 根据评估结果,对LLM的数学推理能力进行打分和评价。5. 分析LLM的常见错误类型,找出其推理缺陷,并提出改进建议。

关键创新:论文最重要的技术创新点在于,它提出了一种新的评估LLM数学推理能力的方法,即通过人工评估其完整解题过程。与现有方法相比,这种方法更加全面、客观、准确。它不仅关注最终答案的正确性,更关注解题步骤的逻辑性和严谨性。这种评估方式可以帮助我们更深入地了解LLM的数学能力,并找出其推理缺陷。

关键设计:论文的关键设计包括:1. 选择USAMO试题作为评估对象,因为这些题目具有很高的难度和挑战性,需要复杂的推理和证明过程。2. 聘请专业的数学家或数学教师作为评估人员,以确保评估结果的客观性和准确性。3. 对LLM的解题过程进行逐行分析,并记录其逻辑性和严谨性。4. 采用统一的评分标准,对LLM的数学推理能力进行打分和评价。5. 分析LLM的常见错误类型,找出其推理缺陷,并提出改进建议。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果显示,在2025年USAMO试题上,即使是表现最好的Gemini-2.5-Pro模型,也仅取得了25%的非零分数,而其他模型的分数均低于5%。这表明当前LLM在解决高难度数学问题时,其推理能力远低于人类专家水平。通过分析推理过程,发现LLM存在多种错误模式,例如逻辑错误、概念理解错误和计算错误。这些结果突显了当前LLM在数学推理能力方面的不足,并指出了未来研究的方向。

🎯 应用场景

该研究成果可应用于提升LLM在科学、工程等领域的应用能力。通过改进LLM的数学推理能力,可以使其更好地解决实际问题,例如进行科学计算、工程设计和数据分析。此外,该研究还可以促进LLM在教育领域的应用,例如辅助学生学习数学、提供个性化辅导等。未来的研究可以探索如何将人类的数学推理方法融入到LLM的训练过程中,从而进一步提升其数学能力。

📄 摘要(原文)

Recent math benchmarks for large language models (LLMs) such as MathArena indicate that state-of-the-art reasoning models achieve impressive performance on mathematical competitions like AIME, with the leading model, Gemini-2.5-Pro, achieving scores comparable to top human competitors. However, these benchmarks evaluate models solely based on final numerical answers, neglecting rigorous reasoning and proof generation which are essential for real-world mathematical tasks. To address this, we introduce a comprehensive evaluation of full-solution reasoning for challenging mathematical problems. Using expert human annotators, we evaluated several state-of-the-art reasoning models on the six problems from the 2025 USAMO within hours of their release. Our results reveal that all tested models struggled significantly: only Gemini-2.5-Pro achieves a non-trivial score of 25%, while all other models achieve less than 5%. Through detailed analysis of reasoning traces, we identify the most common failure modes and find several unwanted artifacts arising from the optimization strategies employed during model training. Overall, our results suggest that current LLMs are inadequate for rigorous mathematical reasoning tasks, highlighting the need for substantial improvements in reasoning and proof generation capabilities.