Beyond Benchmarks: MathArena as an Evaluation Platform for Mathematics with LLMs
作者: Jasper Dekoninck, Nikola Jovanović, Tim Gehrunger, Kári Rögnvalddson, Ivo Petrov, Chenhao Sun, Martin Vechev
分类: cs.CL
发布日期: 2026-05-01
💡 一句话要点
构建MathArena平台,持续评估LLM在数学领域的推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数学推理 评估平台 基准测试 奥林匹克竞赛
📋 核心要点
- 现有数学基准测试范围窄、易饱和、更新慢,难以准确评估LLM的数学能力。
- 构建MathArena评估平台,持续维护并扩展数学任务范围,包括证明、研究级问题和形式化证明。
- GPT-5.5在MathArena上表现出色,在奥赛和研究级问题上分别达到98%和74%的准确率。
📝 摘要(中文)
大型语言模型(LLM)在数学领域的能力日益增强,但静态基准测试已不足以评估其进展,因为它们范围狭窄、易饱和且更新缓慢。这使得可靠地比较模型和跟踪长期进展变得困难。因此,我们需要评估平台:持续维护的系统,运行、聚合和分析多个基准测试的评估结果,以全面了解模型在广泛领域内的性能。本文在原始MathArena基准测试的基础上,将其范围从最终答案的奥林匹克问题扩展到持续维护的LLM数学推理评估平台。MathArena现在涵盖更广泛的任务,包括基于证明的竞赛、研究级别的arXiv问题以及Lean中的形式化证明生成。此外,我们为所有模型维护清晰的评估协议,并随着模型能力的提高定期设计新的基准测试,以确保MathArena保持挑战性。值得注意的是,最强的模型GPT-5.5现在在2026年美国数学奥林匹克竞赛中达到98%,在研究级别的问题中达到74%,表明前沿模型现在可以轻松解决极具挑战性的数学问题。这突显了像MathArena这样持续维护的评估平台对于跟踪LLM在数学推理方面快速进展的重要性。
🔬 方法详解
问题定义:现有静态数学基准测试无法充分评估LLM在数学推理方面的进展。这些基准测试通常范围狭窄,容易被模型“记住”答案,并且更新频率低,难以跟踪模型能力的持续提升。因此,需要一个动态、全面的评估平台来更准确地衡量LLM的数学能力。
核心思路:核心思路是构建一个持续维护和扩展的数学评估平台MathArena。该平台不仅包含传统的数学问题,还涵盖了更具挑战性的任务,如基于证明的竞赛、研究级别的arXiv问题以及形式化证明生成。通过不断更新和增加新的基准测试,MathArena能够保持对LLM的挑战性,并更准确地反映其数学推理能力。
技术框架:MathArena作为一个评估平台,其核心在于持续维护和扩展的基准测试集合。它包含以下几个主要模块:1) 问题收集模块:负责收集各种来源的数学问题,包括奥林匹克竞赛、研究论文和形式化证明任务。2) 评估模块:提供统一的评估协议,用于评估不同LLM在各个基准测试上的表现。3) 分析模块:对评估结果进行分析,生成模型性能报告,并跟踪模型能力的进展。4) 基准测试更新模块:定期设计和添加新的基准测试,以保持平台的挑战性。
关键创新:MathArena的关键创新在于其作为一个持续维护的评估平台,能够动态地适应LLM能力的提升。与静态基准测试相比,MathArena能够更全面、更准确地评估LLM在数学推理方面的进展。此外,MathArena涵盖了更广泛的任务类型,包括证明、研究级问题和形式化证明,从而能够更深入地了解LLM的数学能力。
关键设计:MathArena的关键设计包括:1) 多样化的基准测试集合:涵盖不同难度和类型的数学问题,以全面评估LLM的数学能力。2) 清晰的评估协议:为所有模型提供统一的评估标准,确保评估结果的可比性。3) 定期更新的基准测试:随着模型能力的提高,定期设计和添加新的基准测试,以保持平台的挑战性。4) 详细的性能报告:提供模型在各个基准测试上的详细性能数据,以及模型能力的进展情况。
📊 实验亮点
实验结果表明,最强的模型GPT-5.5在MathArena上表现出色,在2026年美国数学奥林匹克竞赛中达到98%的准确率,在研究级别的问题中达到74%的准确率。这表明前沿模型已经具备解决极具挑战性的数学问题的能力,同时也突显了MathArena作为评估平台的重要性。
🎯 应用场景
MathArena可用于评估和比较不同LLM在数学领域的推理能力,帮助研究人员了解模型的发展趋势。此外,该平台还可以用于指导LLM的训练和优化,提高其在数学领域的应用能力,例如辅助数学研究、自动定理证明和教育辅导等。
📄 摘要(原文)
Large language models (LLMs) are becoming increasingly capable mathematical collaborators, but static benchmarks are no longer sufficient for evaluating progress: they are often narrow in scope, quickly saturated, and rarely updated. This makes it hard to compare models reliably and track progress over time. Instead, we need evaluation platforms: continuously maintained systems that run, aggregate, and analyze evaluations across many benchmarks to give a comprehensive picture of model performance within a broad domain. In this work, we build on the original MathArena benchmark by substantially broadening its scope from final-answer olympiad problems to a continuously maintained evaluation platform for mathematical reasoning with LLMs. MathArena now covers a much wider range of tasks, including proof-based competitions, research-level arXiv problems, and formal proof generation in Lean. Additionally, we maintain a clear evaluation protocol for all models and regularly design new benchmarks as model capabilities improve to ensure that MathArena remains challenging. Notably, the strongest model, GPT-5.5, now reaches 98% on the 2026 USA Math Olympiad and 74% on research-level questions, showing that frontier models can now comfortably solve extremely challenging mathematical problems. This highlights the importance of continuously maintained evaluation platforms like MathArena to track the rapid progress of LLMs in mathematical reasoning.