GAUSS: Benchmarking Structured Mathematical Skills for Large Language Models

作者: Yue Zhang, Jiaxin Zhang, Qiuyu Ren, Tahsin Saffat, Xiaoxuan Liu, Zitong Yang, Banghua Zhu, Yi Ma

分类: cs.AI, cs.CL

发布日期: 2025-09-10

备注: 120 pages (including appendix)

💡 一句话要点

GAUSS：构建结构化数学能力基准，评估大语言模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数学能力评估 基准测试 结构化技能 认知技能

📋 核心要点

现有数学能力评估缺乏细粒度，难以深入了解LLM的优势与不足。
GAUSS基准通过分解数学能力为多个维度，实现对LLM数学技能的精细评估。
实验表明，GAUSS能有效区分不同LLM的数学能力差异，揭示其潜在优势与劣势。

📝 摘要（中文）

本文提出了GAUSS（数学中潜在结构化技能的通用评估）基准，用于评估大型语言模型（LLMs）在十二个核心技能维度上的数学能力，这些维度被归类为三个领域：知识和理解、问题解决和沟通、以及元技能和创造力。通过根据认知技能对问题进行分类，并设计隔离特定能力的tasks，GAUSS构建了全面、细粒度和可解释的模型数学能力剖面，这些剖面忠实地代表了它们潜在的数学智能。为了展示如何使用GAUSS基准，我们导出了GPT-5-thinking的技能剖面，揭示了它的优势和劣势，以及它相对于o4-mini-high的差异，从而突出了多维度、基于技能的评估的价值。

🔬 方法详解

问题定义：现有的大语言模型（LLMs）数学能力评估方法通常采用整体性的指标，难以深入了解模型在不同数学技能维度上的表现。例如，模型可能在代数运算上表现出色，但在几何推理方面存在不足。这种粗粒度的评估方式无法为模型的改进提供有效的指导。

核心思路：GAUSS基准的核心思路是将数学能力分解为多个细粒度的技能维度，并设计相应的评估任务来衡量模型在每个维度上的表现。通过构建一个多维度的技能剖面，GAUSS能够更全面、更深入地了解LLMs的数学能力。

技术框架：GAUSS基准将数学能力划分为三个领域，共十二个核心技能维度： 1. 知识和理解：包括数学概念的理解、公式的记忆和应用等。 2. 问题解决和沟通：包括问题建模、算法设计、结果解释等。 3. 元技能和创造力：包括数学直觉、创新思维、跨领域应用等。针对每个技能维度，GAUSS设计了相应的评估任务，并制定了评分标准。通过对模型在这些任务上的表现进行评估，可以得到一个详细的技能剖面。

关键创新：GAUSS基准的关键创新在于其多维度、细粒度的评估方法。与传统的整体性评估方法相比，GAUSS能够更准确地反映LLMs在不同数学技能上的表现，并为模型的改进提供更有效的指导。此外，GAUSS还强调了对元技能和创造力的评估，这在以往的数学能力评估中往往被忽视。

关键设计：GAUSS基准的关键设计包括： 1. 技能维度的划分：GAUSS将数学能力划分为十二个核心技能维度，这些维度涵盖了数学学习和应用的各个方面。 2. 评估任务的设计：GAUSS针对每个技能维度设计了相应的评估任务，这些任务旨在隔离和衡量模型在该维度上的表现。 3. 评分标准的制定：GAUSS为每个评估任务制定了详细的评分标准，以确保评估结果的客观性和一致性。

🖼️ 关键图片

📊 实验亮点

GAUSS基准对GPT-5-thinking和o4-mini-high进行了评估，结果显示GPT-5-thinking在知识和理解方面表现更优，而o4-mini-high在问题解决和沟通方面更具优势。这表明GAUSS能够有效区分不同LLM的数学能力差异，并揭示其潜在的优势与劣势。该基准为LLM的数学能力评估提供了一个新的视角。

🎯 应用场景

GAUSS基准可用于评估和比较不同LLM的数学能力，指导模型改进和优化。此外，该基准还可用于教育领域，帮助学生了解自身在不同数学技能上的优势和不足，从而制定个性化的学习计划。未来，GAUSS的评估框架可以扩展到其他领域，例如科学、工程等，以评估LLM在这些领域的专业技能。

📄 摘要（原文）

We introduce \textbf{GAUSS} (\textbf{G}eneral \textbf{A}ssessment of \textbf{U}nderlying \textbf{S}tructured \textbf{S}kills in Mathematics), a benchmark that evaluates LLMs' mathematical abilities across twelve core skill dimensions, grouped into three domains: knowledge and understanding, problem solving and communication, and meta-skills and creativity. By categorizing problems according to cognitive skills and designing tasks that isolate specific abilities, GAUSS constructs comprehensive, fine-grained, and interpretable profiles of models' mathematical abilities. These profiles faithfully represent their underlying mathematical intelligence. To exemplify how to use the \textsc{GAUSS} benchmark, we have derived the skill profile of \textsc{GPT-5-thinking}, revealing its strengths and weaknesses as well as its differences relative to \textsc{o4-mini-high}, thereby underscoring the value of multidimensional, skill-based evaluation.

GAUSS: Benchmarking Structured Mathematical Skills for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理