Rethinking Math Reasoning Evaluation: A Robust LLM-as-a-Judge Framework Beyond Symbolic Rigidity

📄 arXiv: 2604.22597v1 📥 PDF

作者: Erez Yosef, Oron Anschel, Shunit Haviv Hakimi, Asaf Gendler, Adam Botach, Nimrod Berman, Igor Kviatkovsky

分类: cs.AI

发布日期: 2026-04-24


💡 一句话要点

提出基于LLM的数学推理评估框架,提升评估鲁棒性,超越符号刚性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数学推理 大型语言模型 评估框架 鲁棒性 语义理解

📋 核心要点

  1. 现有数学推理评估方法依赖于符号数学比较,无法处理多样化的数学表达形式,导致评估结果不准确。
  2. 论文提出一种基于LLM的评估框架,利用LLM的理解能力,对模型生成的答案进行更灵活和鲁棒的评估。
  3. 实验表明,该框架在评估准确性方面优于传统的符号评估方法,能够更可靠地监控模型性能。

📝 摘要(中文)

大型语言模型(LLM)的最新进展显著提升了包括数学推理在内的各项任务的性能,数学推理被用于评估模型在逻辑推理和问题解决方面的智能。目前,模型在数学推理基准上的评估方法主要是通过将模型生成的最终答案与标准答案进行符号数学比较,但这种方法无法泛化到不同的数学表示和解题格式。本文提出了一种基于LLM的评估框架,为评估模型生成的答案提供了一种鲁棒且灵活的替代方案,能够在不同的数学表示和答案格式下进行准确评估。我们展示了符号评估在Lighteval和SimpleRL这两个流行框架中的失败案例,并将它们与我们的方法进行比较,证明了我们的方法相比常用方法有明显的改进。我们的框架能够实现更可靠的评估和基准测试,从而实现更准确的性能监控,这对于推进数学问题解决和智能系统至关重要。

🔬 方法详解

问题定义:论文旨在解决现有数学推理评估方法中存在的鲁棒性问题。当前主流的符号数学比较方法对答案的形式化要求过高,无法处理等价但表达形式不同的答案,导致对模型能力的评估产生偏差。例如,对于同一个数学问题,模型可能使用不同的变量名、不同的运算顺序或不同的数学符号来表达正确的答案,但符号比较方法会将其判定为错误。

核心思路:论文的核心思路是利用大型语言模型(LLM)的语义理解能力,将模型生成的答案和标准答案都转化为LLM能够理解的语义表示,然后由LLM判断两个答案是否在语义上等价。这种方法避免了对答案形式的严格要求,从而提高了评估的鲁棒性。

技术框架:该框架主要包含以下几个阶段:1) 答案生成:待评估的模型生成数学问题的答案。2) 答案解析:将模型生成的答案和标准答案输入到LLM中进行解析,提取关键信息和逻辑关系。3) 语义比较:LLM对解析后的答案进行语义比较,判断它们是否在数学上等价。4) 评估输出:LLM输出评估结果,包括答案是否正确以及评估的理由。

关键创新:该论文最重要的技术创新点在于使用LLM作为评估器,取代了传统的符号数学比较方法。与符号比较方法相比,LLM具有更强的语义理解能力和泛化能力,能够处理更复杂的数学表达形式,从而提高了评估的鲁棒性和准确性。

关键设计:论文中没有明确说明具体的参数设置、损失函数或网络结构等技术细节。但是,可以推测,LLM的选择和prompt的设计是影响评估效果的关键因素。例如,选择具有较强数学推理能力的LLM,并设计合适的prompt来引导LLM进行答案解析和语义比较,可以提高评估的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验证明,基于LLM的评估框架在Lighteval和SimpleRL等流行框架中,能够有效识别出传统符号评估方法无法正确评估的案例,显著提升了评估的准确性和鲁棒性。具体性能提升数据未知,但定性分析表明该方法优于现有方法。

🎯 应用场景

该研究成果可应用于各种数学推理模型的评估和基准测试,帮助研究人员更准确地了解模型的性能,并指导模型的改进。此外,该方法还可以扩展到其他需要语义理解的评估任务中,例如自然语言理解和代码生成。

📄 摘要(原文)

Recent advancements in large language models have led to significant improvements across various tasks, including mathematical reasoning, which is used to assess models' intelligence in logical reasoning and problem-solving. Models are evaluated on mathematical reasoning benchmarks by verifying the correctness of the final answer against a ground truth answer. A common approach for this verification is based on symbolic mathematics comparison, which fails to generalize across diverse mathematical representations and solution formats. In this work, we offer a robust and flexible alternative to rule-based symbolic mathematics comparison. We propose an LLM-based evaluation framework for evaluating model-generated answers, enabling accurate evaluation across diverse mathematical representations and answer formats. We present failure cases of symbolic evaluation in two popular frameworks, Lighteval and SimpleRL, and compare them to our approach, demonstrating clear improvements over commonly used methods. Our framework enables more reliable evaluation and benchmarking, leading to more accurate performance monitoring, which is important for advancing mathematical problem-solving and intelligent systems.