MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval
作者: Shaden Alshammari, Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman, Antonio Torralba
分类: cs.AI, cs.DL, cs.IR, cs.LG
发布日期: 2026-04-20
备注: ICLR 2026; Website: http://mathnet.mit.edu
期刊: Proceedings of the International Conference on Learning Representations (ICLR), 2026
💡 一句话要点
MathNet:一个用于数学推理和检索的全局多模态基准数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数学推理 多模态学习 基准数据集 信息检索 奥林匹克数学
📋 核心要点
- 现有数学问题求解基准在规模、语言覆盖和任务多样性上存在不足,限制了对模型推理能力的全面评估。
- MathNet通过构建大规模、多模态、多语言的奥林匹克级别数学问题数据集,为数学推理和检索提供更全面的评估平台。
- 实验表明,即使是先进模型在MathNet上仍面临挑战,检索增强方法对检索质量敏感,高质量检索能显著提升性能。
📝 摘要(中文)
数学问题求解仍然是对大型语言模型和多模态模型推理能力的严峻考验,但现有的基准数据集在规模、语言覆盖范围和任务多样性方面存在局限性。我们推出了MathNet,这是一个高质量、大规模、多模态和多语言的奥林匹克级别数学问题数据集,以及一个用于评估生成模型中的数学推理和基于嵌入的系统中数学检索的基准。MathNet涵盖47个国家、17种语言和20年的竞赛,包含30676个专家编写的带有解答的问题,涵盖不同的领域。除了核心数据集外,我们还构建了一个检索基准,其中包含由人类专家策划的数学上等价和结构上相似的问题对。MathNet支持三个任务:(i)问题求解,(ii)数学感知检索,以及(iii)检索增强的问题求解。实验结果表明,即使是最先进的推理模型(Gemini-3.1-Pro为78.4%,GPT-5为69.3%)仍然面临挑战,而嵌入模型难以检索到等价的问题。我们进一步表明,检索增强生成性能对检索质量高度敏感;例如,DeepSeek-V3.2-Speciale获得了高达12%的增益,并在基准测试中获得了最高分。MathNet提供了最大的高质量奥林匹克数据集,以及第一个用于评估数学问题检索的基准,我们公开了数据集和基准,网址为https://mathnet.mit.edu。
🔬 方法详解
问题定义:论文旨在解决数学推理和检索领域缺乏大规模、多语言、多模态基准数据集的问题。现有数据集规模有限,语言覆盖不足,任务类型单一,难以全面评估和提升模型的数学能力。这阻碍了相关算法的开发和优化。
核心思路:论文的核心思路是构建一个高质量、大规模、多模态、多语言的奥林匹克级别数学问题数据集MathNet,并设计相应的基准测试任务。通过提供更丰富、更具挑战性的数据,促进数学推理和检索算法的进步。
技术框架:MathNet数据集包含30676个专家编写的数学问题,涵盖47个国家、17种语言和20年的竞赛。数据集支持三个任务:(1)问题求解:直接解决数学问题;(2)数学感知检索:检索与给定问题数学上等价或结构上相似的问题;(3)检索增强的问题求解:利用检索到的相关问题辅助求解。
关键创新:MathNet的主要创新在于其数据集的规模、质量和多样性。它是目前最大的高质量奥林匹克级别数学问题数据集,覆盖多种语言和国家,并提供了数学等价和结构相似问题的检索基准。此外,论文还提出了检索增强的问题求解任务,探索了检索技术在数学问题求解中的应用。
关键设计:数据集的构建过程包括数据收集、清洗、翻译和标注。检索基准的构建涉及专家对问题进行数学等价性和结构相似性的判断和标注。检索增强的问题求解任务中,模型需要利用检索到的问题信息来辅助生成答案。论文没有详细说明具体的模型结构或损失函数,而是侧重于数据集和基准的构建。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是当前最先进的推理模型(如Gemini-3.1-Pro和GPT-5)在MathNet数据集上仍然面临挑战,得分分别为78.4%和69.3%。嵌入模型在检索等价问题方面表现不佳。检索增强方法可以显著提升问题求解性能,例如DeepSeek-V3.2-Speciale通过检索增强获得了高达12%的性能提升,并在基准测试中取得了最高分。
🎯 应用场景
MathNet数据集和基准测试可广泛应用于数学教育、智能辅导系统、自动问题求解器等领域。它可以帮助评估和提升模型的数学推理能力,促进数学知识的检索和利用,并为开发更智能的数学学习工具提供数据支持。该研究的成果有望推动人工智能在数学领域的应用。
📄 摘要(原文)
Mathematical problem solving remains a challenging test of reasoning for large language and multimodal models, yet existing benchmarks are limited in size, language coverage, and task diversity. We introduce MathNet, a high-quality, large-scale, multimodal, and multilingual dataset of Olympiad-level math problems together with a benchmark for evaluating mathematical reasoning in generative models and mathematical retrieval in embedding-based systems. MathNet spans 47 countries, 17 languages, and two decades of competitions, comprising 30,676 expert-authored problems with solutions across diverse domains. In addition to the core dataset, we construct a retrieval benchmark consisting of mathematically equivalent and structurally similar problem pairs curated by human experts. MathNet supports three tasks: (i) Problem Solving, (ii) Math-Aware Retrieval, and (iii) Retrieval-Augmented Problem Solving. Experimental results show that even state-of-the-art reasoning models (78.4% for Gemini-3.1-Pro and 69.3% for GPT-5) remain challenged, while embedding models struggle to retrieve equivalent problems. We further show that retrieval-augmented generation performance is highly sensitive to retrieval quality; for example, DeepSeek-V3.2-Speciale achieves gains of up to 12%, obtaining the highest scores on the benchmark. MathNet provides the largest high-quality Olympiad dataset together with the first benchmark for evaluating mathematical problem retrieval, and we publicly release both the dataset and benchmark at https://mathnet.mit.edu.