GAUSS: Benchmarking Structured Mathematical Skills for Large Language Models

📄 arXiv: 2509.18122v1 📥 PDF

作者: Yue Zhang, Jiaxin Zhang, Qiuyu Ren, Tahsin Saffat, Xiaoxuan Liu, Zitong Yang, Banghua Zhu, Yi Ma

分类: cs.AI, cs.CL

发布日期: 2025-09-10

备注: 120 pages (including appendix)


💡 一句话要点

GAUSS:构建结构化数学能力基准,评估大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数学能力评估 基准测试 结构化技能 认知技能

📋 核心要点

  1. 现有数学能力评估缺乏细粒度,难以深入了解LLM的优势与不足。
  2. GAUSS基准通过分解数学能力为多个维度,实现对LLM数学技能的精细评估。
  3. 实验表明,GAUSS能有效区分不同LLM的数学能力差异,揭示其潜在优势与劣势。

📝 摘要(中文)

本文提出了GAUSS(数学中潜在结构化技能的通用评估)基准,用于评估大型语言模型(LLMs)在十二个核心技能维度上的数学能力,这些维度被归类为三个领域:知识和理解、问题解决和沟通、以及元技能和创造力。通过根据认知技能对问题进行分类,并设计隔离特定能力的tasks,GAUSS构建了全面、细粒度和可解释的模型数学能力剖面,这些剖面忠实地代表了它们潜在的数学智能。为了展示如何使用GAUSS基准,我们导出了GPT-5-thinking的技能剖面,揭示了它的优势和劣势,以及它相对于o4-mini-high的差异,从而突出了多维度、基于技能的评估的价值。

🔬 方法详解

问题定义:现有的大语言模型(LLMs)数学能力评估方法通常采用整体性的指标,难以深入了解模型在不同数学技能维度上的表现。例如,模型可能在代数运算上表现出色,但在几何推理方面存在不足。这种粗粒度的评估方式无法为模型的改进提供有效的指导。

核心思路:GAUSS基准的核心思路是将数学能力分解为多个细粒度的技能维度,并设计相应的评估任务来衡量模型在每个维度上的表现。通过构建一个多维度的技能剖面,GAUSS能够更全面、更深入地了解LLMs的数学能力。

技术框架:GAUSS基准将数学能力划分为三个领域,共十二个核心技能维度: 1. 知识和理解:包括数学概念的理解、公式的记忆和应用等。 2. 问题解决和沟通:包括问题建模、算法设计、结果解释等。 3. 元技能和创造力:包括数学直觉、创新思维、跨领域应用等。 针对每个技能维度,GAUSS设计了相应的评估任务,并制定了评分标准。通过对模型在这些任务上的表现进行评估,可以得到一个详细的技能剖面。

关键创新:GAUSS基准的关键创新在于其多维度、细粒度的评估方法。与传统的整体性评估方法相比,GAUSS能够更准确地反映LLMs在不同数学技能上的表现,并为模型的改进提供更有效的指导。此外,GAUSS还强调了对元技能和创造力的评估,这在以往的数学能力评估中往往被忽视。

关键设计:GAUSS基准的关键设计包括: 1. 技能维度的划分:GAUSS将数学能力划分为十二个核心技能维度,这些维度涵盖了数学学习和应用的各个方面。 2. 评估任务的设计:GAUSS针对每个技能维度设计了相应的评估任务,这些任务旨在隔离和衡量模型在该维度上的表现。 3. 评分标准的制定:GAUSS为每个评估任务制定了详细的评分标准,以确保评估结果的客观性和一致性。

🖼️ 关键图片

img_0

📊 实验亮点

GAUSS基准对GPT-5-thinking和o4-mini-high进行了评估,结果显示GPT-5-thinking在知识和理解方面表现更优,而o4-mini-high在问题解决和沟通方面更具优势。这表明GAUSS能够有效区分不同LLM的数学能力差异,并揭示其潜在的优势与劣势。该基准为LLM的数学能力评估提供了一个新的视角。

🎯 应用场景

GAUSS基准可用于评估和比较不同LLM的数学能力,指导模型改进和优化。此外,该基准还可用于教育领域,帮助学生了解自身在不同数学技能上的优势和不足,从而制定个性化的学习计划。未来,GAUSS的评估框架可以扩展到其他领域,例如科学、工程等,以评估LLM在这些领域的专业技能。

📄 摘要(原文)

We introduce \textbf{GAUSS} (\textbf{G}eneral \textbf{A}ssessment of \textbf{U}nderlying \textbf{S}tructured \textbf{S}kills in Mathematics), a benchmark that evaluates LLMs' mathematical abilities across twelve core skill dimensions, grouped into three domains: knowledge and understanding, problem solving and communication, and meta-skills and creativity. By categorizing problems according to cognitive skills and designing tasks that isolate specific abilities, GAUSS constructs comprehensive, fine-grained, and interpretable profiles of models' mathematical abilities. These profiles faithfully represent their underlying mathematical intelligence. To exemplify how to use the \textsc{GAUSS} benchmark, we have derived the skill profile of \textsc{GPT-5-thinking}, revealing its strengths and weaknesses as well as its differences relative to \textsc{o4-mini-high}, thereby underscoring the value of multidimensional, skill-based evaluation.