From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics

📄 arXiv: 2601.23048v1 📥 PDF

作者: Bowen Cao, Dongdong Zhang, Yixia Li, Junpeng Liu, Shijue Huang, Chufan Shi, Hongyuan Lu, Yaokang Wu, Guanhua Chen, Wai Lam, Furu Wei

分类: cs.AI

发布日期: 2026-01-30

备注: ICLR 2026


💡 一句话要点

ContextMATH基准测试揭示LLM在情境数学推理中问题建模能力的不足

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 情境数学推理 问题建模 基准测试 ContextMATH

📋 核心要点

  1. 现有LLM在抽象数学问题上表现出色,但在实际情境下的数学推理能力不足,无法准确建模问题。
  2. 提出ContextMATH基准,包含情境接地(SG)和复杂性缩放(CS)两种设置,评估LLM在现实场景下的数学问题建模能力。
  3. 实验表明,LLM在ContextMATH上性能显著下降,错误主要源于问题建模不准确,表明建模能力是瓶颈。

📝 摘要(中文)

大型语言模型(LLM)在数学基准测试中表现接近专家水平,但这种进步并未完全转化为实际应用中的可靠性能。本文通过情境数学推理研究了这一差距,其中数学核心必须从描述性场景中构建。我们引入了ContextMATH,该基准将AIME和MATH-500问题重新设计为两种情境设置:情境接地(SG),将抽象问题嵌入到现实叙述中,而不增加推理复杂性;复杂性缩放(CS),将显式条件转化为子问题,以捕捉约束在实践中出现的常见方式。对61个专有和开源模型进行评估,我们观察到显著下降:平均而言,开源模型在SG和CS上分别下降13和34个点,而专有模型下降13和20个点。错误分析表明,错误主要由不正确的公式化问题主导,并且公式化准确性随着原始问题难度的增加而降低。正确的公式化成为成功的先决条件,其充分性随着模型规模的扩大而提高,表明更大的模型在理解和推理方面都有进步。然而,公式化和推理仍然是限制情境数学问题解决的两个互补瓶颈。最后,我们发现使用情境数据进行微调可以提高性能,而仅使用公式化进行训练是无效的。然而,性能差距仅得到部分缓解,突显了情境数学推理作为LLM面临的一个尚未解决的核心挑战。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在情境化数学问题中的表现不佳的问题。尽管LLM在抽象数学基准测试中取得了显著进展,但在需要从现实场景中提取和构建数学问题的实际应用中,它们的性能仍然存在差距。现有的数学基准测试通常侧重于直接的数学问题,而忽略了实际问题中常见的复杂性和模糊性,这使得LLM难以将抽象数学知识应用于现实世界的问题。

核心思路:论文的核心思路是通过引入ContextMATH基准来评估LLM在情境化数学推理中的能力。ContextMATH通过将现有的数学问题嵌入到现实场景中,迫使LLM首先理解场景并从中提取相关的数学信息,然后才能解决问题。这种方法旨在模拟实际应用中遇到的挑战,并揭示LLM在问题建模方面的不足。

技术框架:ContextMATH基准包含两种情境设置:情境接地(SG)和复杂性缩放(CS)。SG将抽象问题嵌入到现实叙述中,而不增加推理复杂性。CS将显式条件转化为子问题,以捕捉约束在实践中出现的常见方式。论文使用AIME和MATH-500问题作为基础,并将它们转化为这两种情境设置。然后,论文使用ContextMATH评估了61个专有和开源LLM。

关键创新:ContextMATH的关键创新在于它强调了问题建模的重要性。与传统的数学基准测试不同,ContextMATH迫使LLM首先理解场景并从中提取相关的数学信息,然后才能解决问题。这使得ContextMATH能够更准确地评估LLM在实际应用中的数学推理能力。此外,ContextMATH的两种情境设置(SG和CS)分别关注了不同的挑战,从而提供了更全面的评估。

关键设计:ContextMATH的关键设计包括:1) 使用AIME和MATH-500问题作为基础,确保问题的数学难度适中;2) 设计SG和CS两种情境设置,分别关注不同的挑战;3) 使用大量的专有和开源LLM进行评估,以获得更可靠的结果;4) 进行详细的错误分析,以确定LLM的瓶颈。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在ContextMATH上的性能显著下降,开源模型在SG和CS上分别下降13和34个点,专有模型下降13和20个点。错误分析表明,错误主要源于问题建模不准确。微调实验表明,使用情境数据进行微调可以提高性能,但性能差距仅得到部分缓解,表明情境数学推理仍然是一个挑战。

🎯 应用场景

该研究成果可应用于提升LLM在实际场景中的数学问题解决能力,例如金融分析、工程设计、科学研究等领域。通过提高LLM对情境化数学问题的理解和建模能力,可以使其更好地服务于各行各业,解决更复杂的实际问题,并促进人工智能在现实世界中的应用。

📄 摘要(原文)

Large language models now solve many benchmark math problems at near-expert levels, yet this progress has not fully translated into reliable performance in real-world applications. We study this gap through contextual mathematical reasoning, where the mathematical core must be formulated from descriptive scenarios. We introduce ContextMATH, a benchmark that repurposes AIME and MATH-500 problems into two contextual settings: Scenario Grounding (SG), which embeds abstract problems into realistic narratives without increasing reasoning complexity, and Complexity Scaling (CS), which transforms explicit conditions into sub-problems to capture how constraints often appear in practice. Evaluating 61 proprietary and open-source models, we observe sharp drops: on average, open-source models decline by 13 and 34 points on SG and CS, while proprietary models drop by 13 and 20. Error analysis shows that errors are dominated by incorrect problem formulation, with formulation accuracy declining as original problem difficulty increases. Correct formulation emerges as a prerequisite for success, and its sufficiency improves with model scale, indicating that larger models advance in both understanding and reasoning. Nevertheless, formulation and reasoning remain two complementary bottlenecks that limit contextual mathematical problem solving. Finally, we find that fine-tuning with scenario data improves performance, whereas formulation-only training is ineffective. However, performance gaps are only partially alleviated, highlighting contextual mathematical reasoning as a central unsolved challenge for LLMs.