Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models
作者: Haoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen
分类: cs.CL
发布日期: 2025-03-27 (更新: 2025-05-19)
备注: Technical Report on Slow Thinking with LLMs: Evaluation Benchmark
🔗 代码/项目: GITHUB
💡 一句话要点
提出OlymMATH奥赛级数学基准,挑战大语言模型复杂推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数学推理 大型语言模型 奥赛级基准 双语评估 复杂推理 基准测试 人工智能
📋 核心要点
- 现有数学推理基准已饱和,无法充分评估大型语言模型日益增长的推理能力。
- 提出OlymMATH基准,包含奥赛级难度数学题,覆盖中英双语,并分为AIME级和更高难度两档。
- 实验表明,即使是当前最先进的模型在OlymMATH的困难子集上也表现出显著的准确性不足。
📝 摘要(中文)
近年来,大型推理模型的快速发展导致现有数学推理评估基准的饱和,迫切需要更具挑战性和严谨性的评估框架。为了解决这一问题,我们引入了OlymMATH,一种新颖的奥赛级数学基准,旨在严格测试LLM的复杂推理能力。OlymMATH包含200道精心策划的问题,每道题都经过人工验证,并提供英文和中文平行版本。这些问题系统地组织成两个不同的难度等级:(1)AIME级别的问题(简单),为数学推理评估建立基线;(2)难度明显更高的问题(困难),旨在突破当前最先进模型的界限。在我们的基准测试中,这些问题涵盖四个核心数学领域,每个领域都包含可验证的数值解,以实现客观的、基于规则的评估。实证结果表明OlymMATH提出了重大挑战,包括DeepSeek-R1、OpenAI的o3-mini和Gemini 2.5 Pro Exp在内的最先进模型在困难子集上的准确性明显有限。此外,该基准测试有助于对数学推理能力进行全面的双语评估——这是主流数学推理基准测试中尚未解决的关键维度。我们在https://github.com/RUCAIBox/OlymMATH发布了基准、评估代码、详细结果和数据可视化工具。
🔬 方法详解
问题定义:论文旨在解决现有数学推理基准对大型语言模型(LLMs)的评估能力不足的问题。现有基准已经无法有效区分不同LLMs的推理能力,特别是对于需要复杂推理的奥赛级别数学问题。现有方法的痛点在于题目难度不够,缺乏区分度,并且很少考虑双语评估。
核心思路:论文的核心思路是构建一个更高难度、更具挑战性的数学推理基准,即OlymMATH。该基准包含奥赛级别的数学问题,能够更有效地评估LLMs的复杂推理能力。同时,提供中英双语版本,以评估LLMs在不同语言环境下的数学推理能力。
技术框架:OlymMATH基准主要包含以下几个部分: 1. 问题收集与筛选:收集奥赛级别的数学问题,并进行人工筛选和验证。 2. 难度分级:将问题分为AIME级别(简单)和更高难度级别(困难)两档。 3. 领域划分:问题涵盖四个核心数学领域。 4. 双语翻译:提供英文和中文平行版本。 5. 数值解验证:每个问题都包含可验证的数值解,用于客观评估。 6. 评估代码与可视化工具:提供评估代码和数据可视化工具,方便用户使用。
关键创新:OlymMATH基准的关键创新在于其题目难度和双语评估。与现有基准相比,OlymMATH的题目难度更高,更具挑战性,能够更有效地评估LLMs的复杂推理能力。同时,提供中英双语版本,弥补了现有基准在双语评估方面的不足。本质区别在于OlymMATH更侧重于考察模型在复杂推理和跨语言理解方面的能力。
关键设计:OlymMATH的关键设计包括: 1. 题目难度:题目难度对标奥赛级别,需要复杂的推理和计算。 2. 题目数量:包含200道精心策划的问题,保证了评估的全面性。 3. 双语版本:提供英文和中文平行版本,方便进行双语评估。 4. 数值解:每个问题都包含可验证的数值解,方便进行客观评估。 5. 难度分级:分为AIME级别和更高难度级别,方便进行分层评估。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是DeepSeek-R1、OpenAI的o3-mini和Gemini 2.5 Pro Exp等最先进的模型在OlymMATH的困难子集上的准确性也明显有限,凸显了该基准的挑战性。例如,在困难子集上,模型的平均准确率远低于预期,表明现有模型在解决复杂数学问题方面仍有很大的提升空间。该基准的发布为研究人员提供了一个更具挑战性的平台,以推动LLMs在数学推理方面的研究。
🎯 应用场景
OlymMATH基准可用于评估和提升大型语言模型在数学推理、逻辑推理和问题解决方面的能力。该基准可以促进LLMs在教育、科研、金融等领域的应用,例如智能辅导系统、自动化定理证明、风险评估等。未来,可以进一步扩展OlymMATH基准,例如增加更多领域的问题、支持更多语言、引入多模态信息等,以更好地评估和提升LLMs的通用智能。
📄 摘要(原文)
In recent years, the rapid development of large reasoning models has resulted in the saturation of existing benchmarks for evaluating mathematical reasoning, highlighting the urgent need for more challenging and rigorous evaluation frameworks. To address this gap, we introduce OlymMATH, a novel Olympiad-level mathematical benchmark, designed to rigorously test the complex reasoning capabilities of LLMs. OlymMATH features 200 meticulously curated problems, each manually verified and available in parallel English and Chinese versions. The problems are systematically organized into two distinct difficulty tiers: (1) AIME-level problems (easy) that establish a baseline for mathematical reasoning assessment, and (2) significantly more challenging problems (hard) designed to push the boundaries of current state-of-the-art models. In our benchmark, these problems span four core mathematical fields, each including a verifiable numerical solution to enable objective, rule-based evaluation. Empirical results underscore the significant challenge presented by OlymMATH, with state-of-the-art models including DeepSeek-R1, OpenAI's o3-mini and Gemini 2.5 Pro Exp demonstrating notably limited accuracy on the hard subset. Furthermore, the benchmark facilitates comprehensive bilingual assessment of mathematical reasoning abilities-a critical dimension that remains largely unaddressed in mainstream mathematical reasoning benchmarks. We release the benchmark, evaluation code, detailed results and a data visualization tool at https://github.com/RUCAIBox/OlymMATH.