EasyMath: A 0-shot Math Benchmark for SLMs
作者: Drishya Karki, Michiel Kamphuis, Angelecia Frey
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-05-20
备注: 17 pages, 9 figures, 8 tables
💡 一句话要点
提出EasyMath基准以评估小型语言模型的数学推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数学推理 小型语言模型 基准测试 零-shot学习 链式思维 模型评估 教育技术
📋 核心要点
- 现有的小型语言模型在数学推理任务上表现不佳,尤其是在复杂问题和边缘案例上。
- 论文提出了EasyMath基准,旨在通过覆盖多种数学问题类型,评估小型语言模型的推理能力。
- 实验结果显示,模型的准确性与参数规模和训练程度正相关,链式思维方法也能带来一定的性能提升。
📝 摘要(中文)
EasyMath是一个紧凑的基准,旨在评估小型语言模型在实际数学推理中的表现。该基准涵盖了从基本算术、运算顺序到文字问题、代数表达式和边缘案例的十三个类别,并省略了专业主题。研究团队在零-shot设置下测试了23个模型(参数从1400万到40亿),通过精确、数值和符号检查自由形式答案。结果表明,模型的准确性随着规模和训练的增加而提高,链式思维带来了适度的增益,而一致性在规模上得到了改善。
🔬 方法详解
问题定义:本论文旨在解决小型语言模型在数学推理方面的评估不足,尤其是在零-shot设置下的表现。现有方法往往无法全面覆盖各种数学问题,导致评估结果不够准确。
核心思路:论文提出了EasyMath基准,通过设计涵盖多种数学问题的测试集,来系统性地评估小型语言模型的推理能力。这种设计使得模型在面对不同类型的数学问题时,能够展现其推理能力。
技术框架:整体架构包括构建一个包含十三个类别的数学问题集,涵盖基本算术、运算顺序、文字问题等。随后,使用23个不同参数规模的模型进行测试,采用精确、数值和符号检查的方式评估模型的回答。
关键创新:最重要的创新点在于EasyMath基准的设计,它不仅涵盖了多种数学问题类型,还在零-shot设置下进行评估,填补了现有基准的空白。与传统方法相比,EasyMath提供了更全面的评估视角。
关键设计:在实验中,模型的参数范围从1400万到40亿,采用了多种评估方式,包括精确匹配和符号检查,以确保评估的全面性和准确性。
📊 实验亮点
实验结果显示,模型的准确性随着参数规模的增加而提高,尤其是在较大模型中表现更为突出。链式思维方法在某些任务上带来了约5%的性能提升,而一致性在模型规模增大时也得到了显著改善。这些结果表明,模型的训练和规模对数学推理能力有显著影响。
🎯 应用场景
该研究的潜在应用领域包括教育技术、智能辅导系统和自动化数学问题解决工具。通过评估小型语言模型在数学推理中的表现,EasyMath基准可以帮助开发更智能的教育工具,提升学生的学习体验和效果。未来,随着模型能力的提升,该基准也可用于更复杂的数学推理任务。
📄 摘要(原文)
EasyMath is a compact benchmark for practical math reasoning in small language models. It covers thirteen categories, from basic arithmetic and order of operations to word problems, algebraic expressions, edge cases, and omits specialist topics. We tested 23 models (14M to 4B parameters) using exact, numerical, and symbolic checks on free-form answers in a zero-shot setting. Accuracy rises with size and training, chain-of-thought adds modest gains, and consistency improves at scale.