Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On
作者: Liang Zeng, Liangjun Zhong, Liang Zhao, Tianwen Wei, Liu Yang, Jujie He, Cheng Cheng, Rui Hu, Yang Liu, Shuicheng Yan, Han Fang, Yahui Zhou
分类: cs.AI, cs.CL, cs.LG
发布日期: 2024-07-11 (更新: 2024-07-17)
💡 一句话要点
Skywork-Math:通过数据规模扩展提升大语言模型数学推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数学推理 大语言模型 数据缩放 监督微调 数据增强
📋 核心要点
- 现有大语言模型在数学推理能力上仍有提升空间,数据规模的扩展是关键驱动力,但高质量数学数据集的构建面临挑战。
- 论文提出两阶段数据合成和模型监督微调流程,通过数据增强和多样化种子问题集,提升数据集质量和模型性能。
- Skywork-Math 7B模型在MATH和GSM8K基准测试中表现出色,超越早期GPT-4在MATH上的性能,验证了数据缩放的有效性。
📝 摘要(中文)
本文研究了可能增强大型语言模型(LLM)数学推理能力的潜在因素。我们认为,现代LLM中数学推理能力的数据缩放定律远未饱和,强调了模型质量随数据量增加而提高。为了支持这一观点,我们推出了Skywork-Math模型系列,该系列基于通用的7B LLM,并使用我们提出的250万实例的Skywork-MathQA数据集进行监督微调(SFT)。Skywork-Math 7B仅使用SFT数据,在竞赛级别的MATH基准测试中达到了51.2%的准确率,在GSM8K基准测试中达到了83.9%的准确率,优于早期版本的GPT-4在MATH上的表现。Skywork-Math模型的卓越性能归功于我们新颖的两阶段数据合成和模型SFT流程,其中包括三种不同的增强方法和一个多样化的种子问题集,确保了Skywork-MathQA数据集在不同难度级别上的数量和质量。最重要的是,我们为研究和工业应用提供了几个实用的方法,以增强LLM的数学推理能力。
🔬 方法详解
问题定义:论文旨在提升大型语言模型在数学推理任务上的能力。现有方法在数据规模和质量上存在瓶颈,难以充分发挥模型的潜力。高质量的数学数据集构建成本高昂,且难以覆盖各种难度级别的问题。
核心思路:论文的核心思路是通过数据缩放来提升模型的数学推理能力。通过构建更大规模、更高质量的数学数据集,并使用监督微调方法训练模型,从而提高模型在数学问题上的准确率和泛化能力。
技术框架:论文采用两阶段的数据合成和模型SFT流程。第一阶段是数据合成,包括三个不同的数据增强方法和一个多样化的种子问题集,用于生成大规模的Skywork-MathQA数据集。第二阶段是模型SFT,使用Skywork-MathQA数据集对通用的7B LLM进行监督微调,得到Skywork-Math模型。
关键创新:论文的关键创新在于提出了一个高效的数据合成流程,能够生成大规模、高质量的数学数据集。该流程结合了多种数据增强方法,并使用多样化的种子问题集,从而保证了数据集的多样性和难度覆盖。
关键设计:数据增强方法包括未知,但强调了多样化的种子问题集。模型SFT阶段使用了标准的监督微调方法,损失函数未知。模型基于通用的7B LLM,具体结构未知,但强调了数据质量和规模的重要性。
🖼️ 关键图片
📊 实验亮点
Skywork-Math 7B模型在MATH基准测试中达到了51.2%的准确率,在GSM8K基准测试中达到了83.9%的准确率。在MATH基准上,Skywork-Math 7B的性能超越了早期版本的GPT-4,证明了数据缩放对于提升数学推理能力的有效性。
🎯 应用场景
该研究成果可应用于教育领域,例如智能辅导系统、自动阅卷系统等,帮助学生更好地学习数学。此外,还可应用于金融、科学计算等领域,提高问题求解的效率和准确性。未来,该方法有望扩展到其他需要复杂推理能力的领域。
📄 摘要(原文)
In this paper, we investigate the underlying factors that potentially enhance the mathematical reasoning capabilities of large language models (LLMs). We argue that the data scaling law for math reasoning capabilities in modern LLMs is far from being saturated, highlighting how the model's quality improves with increases in data quantity. To support this claim, we introduce the Skywork-Math model series, supervised fine-tuned (SFT) on common 7B LLMs using our proposed 2.5M-instance Skywork-MathQA dataset. Skywork-Math 7B has achieved impressive accuracies of 51.2% on the competition-level MATH benchmark and 83.9% on the GSM8K benchmark using only SFT data, outperforming an early version of GPT-4 on MATH. The superior performance of Skywork-Math models contributes to our novel two-stage data synthesis and model SFT pipelines, which include three different augmentation methods and a diverse seed problem set, ensuring both the quantity and quality of Skywork-MathQA dataset across varying difficulty levels. Most importantly, we provide several practical takeaways to enhance math reasoning abilities in LLMs for both research and industry applications.