MathRobust-LV: Evaluation of Large Language Models' Robustness to Linguistic Variations in Mathematical Reasoning
作者: Neeraja Kirtane, Yuvraj Khanna, Peter Relan
分类: cs.CL
发布日期: 2025-10-07
💡 一句话要点
MathRobust-LV:评估大语言模型在数学推理中对语言变异的鲁棒性
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 数学推理 鲁棒性评估 语言变异 教育应用
📋 核心要点
- 现有数学推理评估侧重于高难度竞赛题,忽略了教育场景中常见的语言变异对模型性能的影响。
- MathRobust-LV通过构建包含语言变异的高中数学题数据集,评估模型在保持难度不变的情况下对不同表达方式的鲁棒性。
- 实验表明,即使是强大的语言模型在面对语言变异时,准确率也会显著下降,揭示了模型推理的脆弱性。
📝 摘要(中文)
大语言模型在数学基准测试中表现出色,但其数学推理对语言变异的鲁棒性尚未得到充分探索。虽然最近的工作越来越多地将IMO等高难度竞赛视为评估推理的金标准,但我们认为对真实教育场景中的高中水平数学问题进行全面基准测试非常重要。我们引入了MathRobust-LV,这是一个测试集和评估方法,它模拟了教师在评估中如何改写问题,同时保持难度不变:我们改变表面细节(名称、上下文、变量),同时保留数值结构和答案。与先前改变问题内容或强调IMO级别任务的工作不同,我们专注于模型当前部署在教育环境中的高中级别数据集问题:辅导和评估系统。在这些应用中,教师以不同的方式改写相同的概念,这使得语言鲁棒性对于可靠部署至关重要。尽管MATH数据基准测试通常被认为是饱和的,但我们对34个模型的实验表明,从基线到变体时,准确性会下降。对于较小的模型,这些下降幅度很大(9-11%),而较强的模型也显示出可衡量的退化。像GPT-5、Gemini-2.5pro这样的前沿模型保持相对稳定。我们的结果表明,对语言变异的鲁棒性是一个根本性的挑战,暴露了模型中的推理漏洞。
🔬 方法详解
问题定义:论文旨在解决大语言模型在数学推理中对语言变异的鲁棒性问题。现有方法主要关注模型在标准数学基准测试上的性能,特别是高难度竞赛题,而忽略了实际教育场景中,教师经常使用不同的语言表达方式来描述相同数学概念的情况。这种语言变异可能导致模型性能下降,影响其在教育领域的可靠应用。
核心思路:论文的核心思路是构建一个包含语言变异的数学题数据集,并以此评估模型对语言变异的鲁棒性。通过系统性地改变题目中的表面细节(如名称、上下文、变量),同时保持数值结构和答案不变,来模拟教师在实际教学和评估中使用的语言变异。这种方法能够更真实地反映模型在实际应用中的性能。
技术框架:MathRobust-LV的评估框架主要包含以下几个阶段:1) 选择高中水平的数学题作为基线题目;2) 对基线题目进行语言变异,生成多个变体题目,保证数值结构和答案不变;3) 使用大语言模型解答基线题目和变体题目;4) 比较模型在基线题目和变体题目上的准确率,评估其对语言变异的鲁棒性。
关键创新:该论文的关键创新在于其评估方法,即通过构建包含语言变异的数学题数据集来评估模型的鲁棒性。与以往侧重于高难度竞赛题或改变问题内容的研究不同,该论文关注的是实际教育场景中常见的语言变异,并以此来评估模型在实际应用中的性能。这种方法更贴近实际应用,能够更准确地反映模型的优缺点。
关键设计:MathRobust-LV数据集的关键设计在于如何生成具有代表性的语言变异。论文采用的方法是系统性地改变题目中的名称、上下文和变量,同时保持数值结构和答案不变。例如,将题目中的人名从“Alice”改为“Bob”,或者改变题目的背景故事,但保持数学关系不变。这种设计能够有效地模拟教师在实际教学和评估中使用的语言变异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是强大的大语言模型,在面对MathRobust-LV数据集中的语言变异时,准确率也会显著下降。对于较小的模型,下降幅度高达9-11%。即使是GPT-5和Gemini-2.5pro等前沿模型,也表现出可衡量的性能退化。这些结果表明,语言变异是影响大语言模型数学推理能力的重要因素。
🎯 应用场景
该研究成果可应用于提升大语言模型在教育领域的应用效果,例如智能辅导系统和自动评估系统。通过提高模型对语言变异的鲁棒性,可以使其更好地理解学生的提问,并提供更准确的解答和评估,从而提高学生的学习效率和教师的教学质量。此外,该研究也为开发更可靠的自然语言处理系统提供了新的思路。
📄 摘要(原文)
Large language models excel on math benchmarks, but their math reasoning robustness to linguistic variation is underexplored. While recent work increasingly treats high-difficulty competitions like the IMO as the gold standard for evaluating reasoning, we believe in comprehensive benchmarking of high school-level math problems in real educational settings. We introduce MathRobust-LV, a test set and evaluation methodology that mirrors how instructors rephrase problems across assessments while keeping difficulty constant: we change surface details (names, contexts, variables) while preserving numerical structure and answers. In contrast to prior efforts that alter problem content or emphasize IMO-level tasks, we focus on high-school-level dataset problems at the difficulty level where models are currently deployed in educational settings: tutoring and assessment systems. In these applications, instructors rephrase identical concepts in varied ways, making linguistic robustness essential for reliable deployment. Although MATH data benchmarking is often regarded as saturated, our experiment on 34 models reveals that accuracy declines when moving from the baseline to the variants. These drops are severe for smaller models (9-11%) while stronger models also show measurable degradation. Frontier models like GPT-5, Gemini-2.5pro remain comparatively stable. Our results highlight that robustness to linguistic variation is a fundamental challenge, exposing reasoning vulnerabilities in models.