GAUSS: Benchmarking Structured Mathematical Skills for Large Language Models
作者: Yue Zhang, Jiaxin Zhang, Qiuyu Ren, Tahsin Saffat, Xiaoxuan Liu, Zitong Yang, Banghua Zhu, Yi Ma
分类: cs.AI, cs.CL
发布日期: 2025-09-10
备注: 120 pages (including appendix)
💡 一句话要点
GAUSS:构建结构化数学能力基准,评估大语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 数学能力评估 基准测试 结构化技能 认知技能
📋 核心要点
- 现有数学能力评估缺乏细粒度,难以深入了解LLM的优势与不足。
- GAUSS基准通过分解数学能力为多个维度,实现对LLM数学技能的精细评估。
- 实验表明,GAUSS能有效区分不同LLM的数学能力差异,揭示其潜在优势与劣势。
📝 摘要(中文)
本文提出了GAUSS(数学中潜在结构化技能的通用评估)基准,用于评估大型语言模型(LLMs)在十二个核心技能维度上的数学能力,这些维度被归类为三个领域:知识和理解、问题解决和沟通、以及元技能和创造力。通过根据认知技能对问题进行分类,并设计隔离特定能力的tasks,GAUSS构建了全面、细粒度和可解释的模型数学能力剖面,这些剖面忠实地代表了它们潜在的数学智能。为了展示如何使用GAUSS基准,我们导出了GPT-5-thinking的技能剖面,揭示了它的优势和劣势,以及它相对于o4-mini-high的差异,从而突出了多维度、基于技能的评估的价值。
🔬 方法详解
问题定义:现有的大语言模型(LLMs)数学能力评估方法通常采用整体性的指标,难以深入了解模型在不同数学技能维度上的表现。例如,模型可能在代数运算上表现出色,但在几何推理方面存在不足。这种粗粒度的评估方式无法为模型的改进提供有效的指导。
核心思路:GAUSS基准的核心思路是将数学能力分解为多个细粒度的技能维度,并设计相应的评估任务来衡量模型在每个维度上的表现。通过构建一个多维度的技能剖面,GAUSS能够更全面、更深入地了解LLMs的数学能力。
技术框架:GAUSS基准将数学能力划分为三个领域,共十二个核心技能维度: 1. 知识和理解:包括数学概念的理解、公式的记忆和应用等。 2. 问题解决和沟通:包括问题建模、算法设计、结果解释等。 3. 元技能和创造力:包括数学直觉、创新思维、跨领域应用等。 针对每个技能维度,GAUSS设计了相应的评估任务,并制定了评分标准。通过对模型在这些任务上的表现进行评估,可以得到一个详细的技能剖面。
关键创新:GAUSS基准的关键创新在于其多维度、细粒度的评估方法。与传统的整体性评估方法相比,GAUSS能够更准确地反映LLMs在不同数学技能上的表现,并为模型的改进提供更有效的指导。此外,GAUSS还强调了对元技能和创造力的评估,这在以往的数学能力评估中往往被忽视。
关键设计:GAUSS基准的关键设计包括: 1. 技能维度的划分:GAUSS将数学能力划分为十二个核心技能维度,这些维度涵盖了数学学习和应用的各个方面。 2. 评估任务的设计:GAUSS针对每个技能维度设计了相应的评估任务,这些任务旨在隔离和衡量模型在该维度上的表现。 3. 评分标准的制定:GAUSS为每个评估任务制定了详细的评分标准,以确保评估结果的客观性和一致性。
🖼️ 关键图片
📊 实验亮点
GAUSS基准对GPT-5-thinking和o4-mini-high进行了评估,结果显示GPT-5-thinking在知识和理解方面表现更优,而o4-mini-high在问题解决和沟通方面更具优势。这表明GAUSS能够有效区分不同LLM的数学能力差异,并揭示其潜在的优势与劣势。该基准为LLM的数学能力评估提供了一个新的视角。
🎯 应用场景
GAUSS基准可用于评估和比较不同LLM的数学能力,指导模型改进和优化。此外,该基准还可用于教育领域,帮助学生了解自身在不同数学技能上的优势和不足,从而制定个性化的学习计划。未来,GAUSS的评估框架可以扩展到其他领域,例如科学、工程等,以评估LLM在这些领域的专业技能。
📄 摘要(原文)
We introduce \textbf{GAUSS} (\textbf{G}eneral \textbf{A}ssessment of \textbf{U}nderlying \textbf{S}tructured \textbf{S}kills in Mathematics), a benchmark that evaluates LLMs' mathematical abilities across twelve core skill dimensions, grouped into three domains: knowledge and understanding, problem solving and communication, and meta-skills and creativity. By categorizing problems according to cognitive skills and designing tasks that isolate specific abilities, GAUSS constructs comprehensive, fine-grained, and interpretable profiles of models' mathematical abilities. These profiles faithfully represent their underlying mathematical intelligence. To exemplify how to use the \textsc{GAUSS} benchmark, we have derived the skill profile of \textsc{GPT-5-thinking}, revealing its strengths and weaknesses as well as its differences relative to \textsc{o4-mini-high}, thereby underscoring the value of multidimensional, skill-based evaluation.