Benchmarks Saturate When The Model Gets Smarter Than The Judge

作者: Marthe Ballon, Andres Algaba, Brecht Verbeken, Vincent Ginis

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-01-27

备注: 17 pages, 10 figures, 3 tables

💡 一句话要点

Omni-MATH-2：通过高质量数据集和可靠评估，提升数学问题基准测试的准确性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数学问题求解 大型语言模型 基准测试 数据集质量 评估器可靠性

📋 核心要点

现有基准测试因数据集噪声和评估器不可靠性，难以准确评估大型语言模型在数学问题上的能力。
论文核心在于构建高质量的Omni-MATH-2数据集，并分析评估器引入的噪声，从而提升基准测试的可靠性。
实验表明，即使在基准测试饱和前，现有评估器也存在显著误差，高质量数据集和可靠评估器至关重要。

📝 摘要（中文）

基准测试是追踪大型语言模型（LLMs）发展进展的重要工具，但数据集和评估方法中的不准确性持续削弱其有效性。本文提出了Omni-MATH-2，一个手动修订的Omni-MATH数据集版本，包含一个干净、精确答案的子集（n=4181）和一个带标签、非标准的子集（n=247）。每个问题都经过审核，以确保LaTeX可编译性、可解性和可验证性，包括添加缺失的图形或信息，标记需要证明、估计或图像的问题，以及移除冗余信息。此过程显著降低了数据集引入的噪声，从而提供更精确的模型性能评估。带注释的数据集还允许我们通过将GPT-5 mini与原始Omni-Judge进行比较来评估评估器引入的噪声，揭示了评估器在干净和带标签问题子集上的显著差异。专家注释表明，Omni-Judge在96.4%的评估器分歧中是错误的，表明它无法区分模型的能力，甚至在基准测试饱和之前。随着问题变得更具挑战性，我们发现越来越有能力的评估器对于防止评估器错误掩盖模型之间的真正差异至关重要。最后，两个评估器都没有识别出带标签问题子集的当前失效模式，表明数据集质量和评估器可靠性对于开发准确的模型性能基准至关重要。

🔬 方法详解

问题定义：现有数学问题基准测试存在数据集质量不高和评估器（Judge）不可靠的问题。数据集可能包含错误、不完整或冗余的信息，导致模型在不正确的数据上进行训练和评估。同时，评估器可能无法准确判断模型的答案是否正确，尤其是在问题变得更复杂时，从而掩盖了模型之间的真实性能差异。

核心思路：论文的核心思路是通过人工干预，构建一个高质量、精确的数学问题数据集Omni-MATH-2，并深入分析评估器在评估过程中的误差。通过消除数据集噪声和提高评估器的可靠性，从而更准确地评估大型语言模型在数学问题上的能力。

技术框架：论文主要包含以下几个阶段：1) 数据集构建：手动修订Omni-MATH数据集，包括清理数据、添加缺失信息、标记问题类型等。2) 评估器分析：比较GPT-5 mini和原始Omni-Judge在评估数据集上的表现，分析评估器之间的差异。3) 专家评估：聘请专家对评估器分歧的问题进行评估，确定评估器的错误率。4) 错误模式分析：分析评估器无法识别的错误模式，并探讨数据集质量和评估器可靠性对基准测试的影响。

关键创新：论文的关键创新在于：1) 构建了高质量的Omni-MATH-2数据集，显著降低了数据集噪声。2) 深入分析了评估器在评估过程中的误差，揭示了评估器不可靠性对基准测试的影响。3) 强调了数据集质量和评估器可靠性对于开发准确的模型性能基准的重要性。

关键设计：论文的关键设计包括：1) 数据集修订过程：确保LaTeX可编译性、可解性和可验证性，添加缺失的图形或信息，标记需要证明、估计或图像的问题，以及移除冗余信息。2) 评估器比较方法：使用GPT-5 mini作为更强的评估器，与原始Omni-Judge进行比较，分析评估器之间的差异。3) 专家评估方法：聘请数学专家对评估器分歧的问题进行评估，确定评估器的错误率。

🖼️ 关键图片

📊 实验亮点

Omni-Judge在96.4%的评估器分歧中是错误的，表明其在区分模型能力方面存在严重缺陷，即使在基准测试饱和之前。高质量数据集和更强的评估器（如GPT-5 mini）能够更准确地反映模型在数学问题上的真实性能。

🎯 应用场景

该研究成果可应用于开发更可靠的数学问题基准测试，从而更准确地评估和比较大型语言模型在数学领域的性能。高质量的数据集和可靠的评估方法有助于推动LLM在数学推理能力上的发展，并可应用于教育、科研等领域，例如智能辅导系统、数学问题自动求解等。

📄 摘要（原文）

Benchmarks are important tools to track progress in the development of Large Language Models (LLMs), yet inaccuracies in datasets and evaluation methods consistently undermine their effectiveness. Here, we present Omni-MATH-2, a manually revised version of the Omni-MATH dataset comprising a clean, exact-answer subset ($n{=}4181$) and a tagged, non-standard subset ($n{=}247$). Each problem was audited to ensure LaTeX compilability, solvability and verifiability, which involved adding missing figures or information, labeling problems requiring a proof, estimation or image, and removing clutter. This process significantly reduces dataset-induced noise, thereby providing a more precise assessment of model performance. The annotated dataset also allows us to evaluate judge-induced noise by comparing GPT-5 mini with the original Omni-Judge, revealing substantial discrepancies between judges on both the clean and tagged problem subsets. Expert annotations reveal that Omni-Judge is wrong in $96.4\%$ of the judge disagreements, indicating its inability to differentiate between models' abilities, even well before saturation of the benchmark occurs. As problems become more challenging, we find that increasingly competent judges become essential in order to prevent judge errors from masking genuine differences between models. Finally, neither judge identifies the present failure modes for the subset of tagged problems, demonstrating that dataset quality and judge reliability are both critical to develop accurate benchmarks of model performance.

Benchmarks Saturate When The Model Gets Smarter Than The Judge

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理