MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations

作者: Kaixuan Huang, Jiacheng Guo, Zihao Li, Xiang Ji, Jiawei Ge, Wenzhe Li, Yingqing Guo, Tianle Cai, Hui Yuan, Runzhe Wang, Yue Wu, Ming Yin, Shange Tang, Yangsibo Huang, Chi Jin, Xinyun Chen, Chiyuan Zhang, Mengdi Wang

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-02-10 (更新: 2025-02-12)

备注: v2: fix bugs in Fig. 1

💡 一句话要点

MATH-Perturb：通过难题扰动评估LLM的数学推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数学推理 大型语言模型 难题扰动 基准测试 模型评估

📋 核心要点

现有数学推理基准测试主要关注简单扰动，难以有效评估LLM在问题本质改变下的推理能力。
提出MATH-Perturb，包含简单扰动和难题扰动两种类型，用于更全面地评估LLM的数学推理能力。
实验表明，即使是强大的LLM在难题扰动下性能也显著下降，揭示了模型可能存在的盲目应用问题解决技能的风险。

📝 摘要（中文）

大型语言模型在具有挑战性的数学推理任务中表现出了令人印象深刻的性能，引发了人们对这种性能是通过真正的推理能力还是记忆来实现的讨论。为了研究这个问题，之前的工作构建了数学基准，其中问题经历了简单的扰动——这些修改仍然保留了解的底层推理模式。然而，没有工作探索过难题扰动，这些扰动从根本上改变了问题的性质，以至于原始的解决方案步骤不再适用。为了弥合这一差距，我们分别通过简单扰动和难题扰动构建了MATH-P-Simple和MATH-P-Hard。每个数据集包含279个扰动后的数学问题，这些问题源自MATH数据集中难度为5级（最难）的问题。我们观察到，包括o1-mini（-16.49%）和gemini-2.0-flash-thinking（-12.9%）在内的各种模型在MATH-P-Hard上的性能显著下降。我们还对一种新型的记忆形式提出了担忧，在这种记忆形式中，模型盲目地应用学习到的问题解决技能，而不评估它们对修改后上下文的适用性。当使用原始问题进行上下文学习时，这个问题会被放大。我们呼吁研究工作来解决这一挑战，这对于开发更强大和可靠的推理模型至关重要。

🔬 方法详解

问题定义：论文旨在解决现有数学推理基准测试无法有效评估大型语言模型（LLM）在面对难题扰动时的真实推理能力的问题。现有方法主要关注简单扰动，即在不改变问题本质的前提下进行修改，无法区分模型是真正理解了问题还是仅仅记忆了解决方案。这种局限性使得我们难以判断LLM是否具备鲁棒的数学推理能力。

核心思路：论文的核心思路是通过引入难题扰动，即对原始数学问题进行根本性的改变，使得原始的解决方案步骤不再适用。通过评估LLM在难题扰动下的性能，可以更有效地衡量模型是否真正理解了问题的本质，并具备灵活运用知识解决问题的能力。这种方法旨在揭示LLM可能存在的盲目应用问题解决技能的风险。

技术框架：论文构建了MATH-Perturb数据集，包含MATH-P-Simple和MATH-P-Hard两个子集，分别对应简单扰动和难题扰动。数据集的构建流程如下：首先，从MATH数据集中选取难度为5级的问题；然后，对这些问题进行简单扰动和难题扰动，生成MATH-P-Simple和MATH-P-Hard数据集。最后，使用这些数据集评估各种LLM的性能，并分析结果。

关键创新：论文最重要的技术创新点在于提出了难题扰动的概念，并构建了相应的MATH-P-Hard数据集。与现有方法只关注简单扰动不同，难题扰动能够从根本上改变问题的性质，从而更有效地评估LLM的真实推理能力。这种方法能够揭示LLM可能存在的盲目应用问题解决技能的风险，为开发更强大和可靠的推理模型提供了新的思路。

关键设计：论文的关键设计在于难题扰动的具体实现方式。具体的扰动方法未知，但其目标是改变问题的本质，使得原始的解决方案步骤不再适用。论文还关注了使用原始问题进行上下文学习对模型性能的影响，并发现这种做法可能会加剧模型盲目应用问题解决技能的风险。具体的参数设置、损失函数、网络结构等技术细节未在论文中详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，包括o1-mini和gemini-2.0-flash-thinking在内的各种模型在MATH-P-Hard数据集上的性能显著下降，分别下降了16.49%和12.9%。这表明即使是强大的LLM在面对难题扰动时也存在明显的局限性。此外，研究还发现使用原始问题进行上下文学习可能会加剧模型盲目应用问题解决技能的风险。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的数学推理能力，尤其是在面对复杂和变化的环境时。通过使用MATH-Perturb数据集，可以更准确地衡量模型的鲁棒性和泛化能力。此外，该研究还可以指导模型的设计和训练，使其能够更好地理解问题的本质，而不是仅仅依赖于记忆和模式匹配。这对于开发更可靠和可信赖的人工智能系统具有重要意义。

📄 摘要（原文）

Large language models have demonstrated impressive performance on challenging mathematical reasoning tasks, which has triggered the discussion of whether the performance is achieved by true reasoning capability or memorization. To investigate this question, prior work has constructed mathematical benchmarks when questions undergo simple perturbations -- modifications that still preserve the underlying reasoning patterns of the solutions. However, no work has explored hard perturbations, which fundamentally change the nature of the problem so that the original solution steps do not apply. To bridge the gap, we construct MATH-P-Simple and MATH-P-Hard via simple perturbation and hard perturbation, respectively. Each consists of 279 perturbed math problems derived from level-5 (hardest) problems in the MATH dataset (Hendrycksmath et. al., 2021). We observe significant performance drops on MATH-P-Hard across various models, including o1-mini (-16.49%) and gemini-2.0-flash-thinking (-12.9%). We also raise concerns about a novel form of memorization where models blindly apply learned problem-solving skills without assessing their applicability to modified contexts. This issue is amplified when using original problems for in-context learning. We call for research efforts to address this challenge, which is critical for developing more robust and reliable reasoning models.

MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理