EasyMath: A 0-shot Math Benchmark for SLMs
作者: Drishya Karki, Michiel Kamphuis, Angelecia Frey
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-05-20
备注: 17 pages, 9 figures, 8 tables
💡 一句话要点
EasyMath:面向小型语言模型的零样本数学推理评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数学推理 小型语言模型 基准测试 零样本学习 思维链 模型评估 算术 代数
📋 核心要点
- 现有小型语言模型在复杂数学推理方面存在不足,缺乏专门的评测基准。
- EasyMath基准专注于实用数学推理,涵盖多种数学问题类型,避免了专业领域知识。
- 实验结果表明,模型性能与规模和训练量正相关,思维链方法和规模化有助于提升性能。
📝 摘要(中文)
EasyMath是一个紧凑的基准测试,用于评估小型语言模型在实际数学推理方面的能力。它涵盖了13个类别,从基本的算术和运算顺序到文字问题、代数表达式、边缘情况,并省略了专业主题。我们使用精确、数值和符号检查,在零样本设置下对自由形式的答案进行了测试,评估了23个模型(参数量从14M到4B)。结果表明,准确率随着模型大小和训练量的增加而提高,思维链(chain-of-thought)方法带来适度的增益,并且一致性随着规模的扩大而改善。
🔬 方法详解
问题定义:论文旨在解决小型语言模型(SLMs)在数学推理能力评估方面缺乏专门且全面的基准测试的问题。现有基准可能过于关注特定领域或过于复杂,不适合评估小型模型的实际数学能力。因此,需要一个紧凑、实用且覆盖多种数学类型的基准来有效评估SLMs的数学推理能力。
核心思路:论文的核心思路是构建一个名为EasyMath的基准测试,该基准专注于小型语言模型能够处理的实用数学推理问题。EasyMath的设计目标是简洁、全面,并且易于使用,以便研究人员能够快速评估和比较不同SLMs的数学能力。通过提供多种类型的数学问题,EasyMath可以更全面地评估模型的推理能力。
技术框架:EasyMath基准测试包含13个类别,涵盖了从基础算术到代数表达式等多种数学问题。评估流程包括:1) 给定一个数学问题;2) 模型生成自由形式的答案;3) 使用精确匹配、数值比较和符号检查等方法评估答案的正确性。研究人员在零样本设置下测试了23个模型,参数量从14M到4B不等。
关键创新:EasyMath的关键创新在于其针对小型语言模型的设计,专注于实用数学推理,并提供了一个紧凑且全面的基准测试。与现有基准相比,EasyMath更加易于使用和理解,并且更适合评估小型模型的实际数学能力。此外,EasyMath还采用了多种评估方法,包括精确匹配、数值比较和符号检查,以更全面地评估答案的正确性。
关键设计:EasyMath的关键设计包括:1) 涵盖13个类别的数学问题,包括算术、运算顺序、文字问题、代数表达式等;2) 使用零样本设置,避免模型在特定数据集上过拟合;3) 采用多种评估方法,包括精确匹配、数值比较和符号检查;4) 评估指标包括准确率和一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,模型在EasyMath上的准确率随着模型大小和训练量的增加而提高。思维链(chain-of-thought)方法在一定程度上提高了模型的性能。此外,模型的一致性随着规模的扩大而改善。例如,更大的模型在解决相同类型的数学问题时,能够更稳定地给出正确的答案。
🎯 应用场景
EasyMath基准测试可用于评估和比较不同小型语言模型的数学推理能力,帮助研究人员选择合适的模型并改进其数学能力。该基准还可用于开发更有效的数学教学方法,并为教育领域的AI应用提供支持。此外,EasyMath可以促进小型语言模型在需要数学推理能力的实际应用中的部署,例如智能助手、数据分析等。
📄 摘要(原文)
EasyMath is a compact benchmark for practical math reasoning in small language models. It covers thirteen categories, from basic arithmetic and order of operations to word problems, algebraic expressions, edge cases, and omits specialist topics. We tested 23 models (14M to 4B parameters) using exact, numerical, and symbolic checks on free-form answers in a zero-shot setting. Accuracy rises with size and training, chain-of-thought adds modest gains, and consistency improves at scale.