GAUSS: Benchmarking Structured Mathematical Skills for Large Language Models

作者: Yue Zhang, Jiaxin Zhang, Qiuyu Ren, Tahsin Saffat, Xiaoxuan Liu, Zitong Yang, Banghua Zhu, Yi Ma

分类: cs.AI, cs.CL

发布日期: 2025-09-10

备注: 120 pages (including appendix)

💡 一句话要点

GAUSS：构建结构化数学能力基准，评估大语言模型的数学技能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数学能力评估 结构化技能 基准测试 认知技能 问题解决 知识理解

📋 核心要点

现有LLM数学能力评估缺乏细粒度分析，难以深入了解模型在不同数学技能上的表现。
GAUSS基准通过对数学技能进行结构化分解，并设计针对性任务，实现对LLM数学能力的精细评估。
实验表明，GAUSS能够有效区分不同LLM在各项数学技能上的优劣势，提供有价值的分析信息。

📝 摘要（中文）

本文提出了GAUSS（通用数学结构化技能评估），一个用于评估大语言模型（LLMs）数学能力的基准。GAUSS从知识理解、问题解决与沟通、元技能与创造力三个领域，共十二个核心技能维度评估LLMs。通过根据认知技能对问题进行分类，并设计隔离特定能力的测试任务，GAUSS构建了全面、细粒度且可解释的模型数学能力剖面，从而真实地反映了模型潜在的数学智能。为了展示GAUSS基准的使用方法，本文导出了GPT-5-thinking的技能剖面，揭示了其优势和劣势，以及相对于o4-mini-high的差异，从而突出了多维度、基于技能评估的价值。

🔬 方法详解

问题定义：现有的大语言模型（LLMs）在数学能力方面取得了显著进展，但对其数学能力的评估往往缺乏细粒度和可解释性。传统的评估方法通常只关注整体性能指标，难以深入了解模型在不同数学技能上的表现，例如知识理解、问题解决、沟通表达和创造性思维等。因此，需要一种更精细化的评估方法，能够揭示LLMs在各项数学技能上的优势和劣势，从而为模型改进提供指导。

核心思路：GAUSS的核心思路是将数学能力分解为多个结构化的技能维度，并设计针对性的评估任务，以隔离和评估每个技能。通过构建一个多维度的技能剖面，GAUSS能够全面地反映LLMs的数学能力，并提供可解释的评估结果。这种方法借鉴了认知心理学和教育测量学的思想，旨在更准确地评估LLMs的数学智能。

技术框架：GAUSS基准主要包含以下几个组成部分： 1. 技能维度定义：将数学能力分解为三个领域（知识理解、问题解决与沟通、元技能与创造力）下的十二个核心技能维度。 2. 问题设计：为每个技能维度设计相应的评估问题，确保问题能够有效地隔离和评估该技能。 3. 评估流程：定义统一的评估流程，包括问题呈现、模型推理、答案生成和结果评估等环节。 4. 技能剖面构建：根据模型在各个技能维度上的表现，构建一个多维度的技能剖面，用于可视化和分析模型的数学能力。

关键创新：GAUSS的关键创新在于其结构化的技能评估方法。与传统的整体性能评估相比，GAUSS能够提供更细粒度、更可解释的评估结果。通过对数学技能进行分解和隔离，GAUSS能够更准确地评估LLMs在各项技能上的表现，并揭示其潜在的优势和劣势。此外，GAUSS还强调了对问题解决过程和沟通表达能力的评估，这在以往的数学能力评估中往往被忽视。

关键设计：GAUSS的关键设计包括： 1. 技能维度的选择：选择了十二个具有代表性的数学技能维度，涵盖了数学知识、问题解决、沟通表达和创造性思维等多个方面。 2. 问题设计的原则：遵循了认知心理学和教育测量学的原则，确保问题能够有效地隔离和评估目标技能。 3. 评估指标的设计：设计了多种评估指标，包括准确率、流畅度、创造性等，以全面地评估模型在各个技能维度上的表现。

📊 实验亮点

该论文通过GAUSS基准评估了GPT-5-thinking和o4-mini-high两个模型。评估结果揭示了GPT-5-thinking在某些技能维度上优于o4-mini-high，但在其他维度上则表现较弱。例如，GPT-5-thinking在知识理解方面表现出色，但在问题解决和沟通表达方面则有待提高。这些结果表明，GAUSS能够有效地区分不同LLMs在各项数学技能上的优劣势。

🎯 应用场景

GAUSS基准可用于评估和比较不同LLMs的数学能力，指导模型改进和优化。此外，GAUSS还可以应用于教育领域，帮助教师了解学生的数学学习情况，并制定个性化的教学方案。该研究的未来影响在于推动LLMs在数学教育和科研领域的应用，并促进人工智能技术的进一步发展。

📄 摘要（原文）

We introduce \textbf{GAUSS} (\textbf{G}eneral \textbf{A}ssessment of \textbf{U}nderlying \textbf{S}tructured \textbf{S}kills in Mathematics), a benchmark that evaluates LLMs' mathematical abilities across twelve core skill dimensions, grouped into three domains: knowledge and understanding, problem solving and communication, and meta-skills and creativity. By categorizing problems according to cognitive skills and designing tasks that isolate specific abilities, GAUSS constructs comprehensive, fine-grained, and interpretable profiles of models' mathematical abilities. These profiles faithfully represent their underlying mathematical intelligence. To exemplify how to use the \textsc{GAUSS} benchmark, we have derived the skill profile of \textsc{GPT-5-thinking}, revealing its strengths and weaknesses as well as its differences relative to \textsc{o4-mini-high}, thereby underscoring the value of multidimensional, skill-based evaluation.

GAUSS: Benchmarking Structured Mathematical Skills for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册