MathClean: A Benchmark for Synthetic Mathematical Data Cleaning
作者: Hao Liang, Meiyi Qiang, Yuying Li, Zefeng He, Yongzhen Guo, Zhengzhou Zhu, Wentao Zhang, Bin Cui
分类: cs.CL
发布日期: 2025-02-26
🔗 代码/项目: GITHUB
💡 一句话要点
提出MathClean基准,用于评估数学数据清洗模型的有效性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数学数据清洗 基准数据集 大型语言模型 数据质量 错误类型标注
📋 核心要点
- 大型语言模型依赖高质量数学数据进行训练,但合成数据易出错,影响模型性能。
- MathClean基准旨在评估和提升数学数据清洗模型,通过提供带标注的错误数据。
- 实验表明,即使是强大的模型在MathClean上表现不佳,验证了该基准的价值。
📝 摘要(中文)
随着大型语言模型(LLMs)的快速发展,训练数据的质量变得至关重要。在各种类型的训练数据中,数学数据在使LLMs获得强大的推理能力方面起着关键作用。虽然高质量的开源数据很重要,但它通常不足以进行预训练,因此需要添加合成数学问题。然而,合成的数学问题和答案可能会引入不准确之处,这可能会降低训练数据和网络数据的质量。因此,一种有效的数学数据清洗方法至关重要。在本文中,我们提出了MathClean基准来评估数学数据清洗模型的有效性。MathClean基准由2,000个正确的问题和2,000个错误的题以及额外的2,000个正确和错误的答案组成,这些数据来自基于GSM8K和MATH的增强数据。此外,我们还为每个问题或答案标注了错误类型,因为它可以评估模型是否可以正确识别错误类别,以便将来改进。最后,我们使用最先进(SOTA)的模型进行了全面评估。我们的结果表明,即使是像GPT-o1和DeepSeek-R1这样的强大模型在这个基准上的表现也很差,突出了MathClean的实用性。我们的代码和数据可在https://github.com/YuYingLi0/MathClean获得。
🔬 方法详解
问题定义:论文旨在解决合成数学数据中存在的错误问题,这些错误会降低大型语言模型的训练效果。现有方法缺乏有效的评估工具来衡量数据清洗模型的性能,难以保证训练数据的质量。
核心思路:论文的核心思路是构建一个包含带标注错误类型的合成数学数据集(MathClean),作为评估数据清洗模型的基准。通过在该基准上评估现有模型,可以了解其在识别和纠正数学数据错误方面的能力。
技术框架:MathClean基准的构建流程包括:1) 基于GSM8K和MATH数据集生成合成数学问题和答案;2) 引入错误生成机制,创建包含错误的问题和答案;3) 对每个问题和答案进行错误类型标注;4) 构建包含2000个正确问题、2000个错误问题、2000个正确答案和2000个错误答案的数据集。
关键创新:MathClean的关键创新在于:1) 提供了一个专门用于评估数学数据清洗模型的基准数据集;2) 标注了详细的错误类型,有助于分析模型在不同错误类型上的表现;3) 基于现有数据集进行数据增强,降低了构建成本。
关键设计:MathClean基准的数据集规模为8000个样本,包含问题和答案两部分。错误类型标注涵盖了常见的数学错误,例如计算错误、逻辑错误、单位错误等。论文使用GPT-o1和DeepSeek-R1等SOTA模型作为评估对象,并采用准确率等指标来衡量模型性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是像GPT-o1和DeepSeek-R1这样的强大模型在MathClean基准上的表现也很差,突显了该基准的实用性和挑战性。这表明现有模型在识别和纠正合成数学数据中的错误方面仍有很大的提升空间,为未来的研究提供了方向。
🎯 应用场景
MathClean基准可用于评估和改进数学数据清洗模型,提高大型语言模型在数学推理任务上的性能。该基准可以促进数据清洗技术的发展,并应用于教育、科研等领域,提升数学学习和研究的效率和准确性。未来,可以扩展MathClean基准,包含更多类型的数学问题和错误,以适应更广泛的应用场景。
📄 摘要(原文)
With the rapid development of large language models (LLMs), the quality of training data has become crucial. Among the various types of training data, mathematical data plays a key role in enabling LLMs to acquire strong reasoning abilities. While high-quality open-source data is important, it is often insufficient for pre-training, necessitating the addition of synthetic math problems. However, synthetic math questions and answers can introduce inaccuracies, which may degrade both the training data and web data. Therefore, an effective method for cleaning synthetic math data is essential. In this paper, we propose the MathClean benchmark to evaluate the effectiveness of math data cleaning models. The MathClean benchmark consists of 2,000 correct questions and 2,000 erroneous questions with additional 2,000 correct and erroneous answers sourced from augmented data based on GSM8K and MATH. Moreover, we also annotate error types for each question or answer, since it can assess whether models can correctly identify the error categories for future improvements. Finally, we present comprehensive evaluations using state-of-the-art (SOTA) models. Our results demonstrate that even strong models like GPT-o1 and DeepSeek-R1 perform poorly on this benchmark, highlighting the utility of MathClean. Our code and data is available at https://github.com/YuYingLi0/MathClean.