MegaMath: Pushing the Limits of Open Math Corpora
作者: Fan Zhou, Zengzhi Wang, Nikhil Ranjan, Zhoujun Cheng, Liping Tang, Guowei He, Zhengzhong Liu, Eric P. Xing
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-04-03
备注: 26 pages, 15 figures, 22 tables
💡 一句话要点
MegaMath:构建大规模开放数学语料库,推动数学LLM发展
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数学语料库 大型语言模型 预训练 数据挖掘 合成数据
📋 核心要点
- 现有数学LLM预训练缺乏大规模、高质量的开放语料库,限制了模型性能。
- MegaMath通过重提取网络数据、召回数学代码和生成合成数据,构建大规模数学语料库。
- 实验表明,MegaMath包含371B tokens,是现有开放数学预训练数据集中规模最大、质量最高的。
📝 摘要(中文)
数学推理是人类智能的基石,也是大型语言模型(LLM)高级能力的关键基准。然而,研究界仍然缺乏一个开放、大规模、高质量的语料库,专门为以数学为中心的LLM预训练量身定制。我们提出了MegaMath,这是一个开放数据集,通过以下实践从不同的、以数学为中心的来源中整理而来:(1)重新审视网络数据:我们通过面向数学的HTML优化、基于fasttext的过滤和去重,从Common Crawl中重新提取数学文档,所有这些都是为了在互联网上获取更高质量的数据。(2)召回数学相关的代码数据:我们从大型代码训练语料库Stack-V2中识别出高质量的数学相关代码,进一步增强了数据的多样性。(3)探索合成数据:我们从网络数据或代码数据中合成了QA风格的文本、数学相关代码以及交错的文本-代码块。通过整合这些策略并通过广泛的消融实验验证其有效性,MegaMath提供了3710亿个token,在现有的开放数学预训练数据集中,数量最多,质量最高。
🔬 方法详解
问题定义:论文旨在解决数学领域大型语言模型(LLM)预训练数据匮乏的问题。现有方法要么数据量不足,要么数据质量不高,难以支撑数学LLM的有效训练。此外,数据来源单一也限制了模型的泛化能力。
核心思路:论文的核心思路是通过多源数据融合,构建一个大规模、高质量、多样化的数学语料库。具体而言,论文从网络数据、代码数据和合成数据三个方面入手,力求覆盖数学领域的各种知识形式。通过数据清洗、过滤和增强等手段,提高数据质量,并增加数据的多样性。
技术框架:MegaMath的构建流程主要包括三个阶段:1) 网络数据重提取:利用数学相关的HTML优化策略,从Common Crawl中提取数学文档,并使用fasttext进行过滤和去重。2) 数学代码召回:从Stack-V2代码语料库中识别并提取高质量的数学相关代码。3) 合成数据生成:基于网络数据和代码数据,生成QA风格的文本、数学代码以及文本-代码混合数据。最后,将这三部分数据整合,形成MegaMath语料库。
关键创新:MegaMath的关键创新在于其多源数据融合策略和面向数学的优化方法。与以往单一依赖网络数据或代码数据的方法不同,MegaMath综合利用了网络数据、代码数据和合成数据,从而构建了一个更加全面和多样化的数学语料库。此外,论文还针对数学文档的特点,提出了HTML优化策略,提高了网络数据的提取效率和质量。
关键设计:在网络数据重提取阶段,论文采用了面向数学的HTML优化策略,例如优先提取包含<math>标签的文档。在数据过滤阶段,论文使用了基于fasttext的文本分类器,过滤掉与数学无关的文档。在合成数据生成阶段,论文采用了多种生成策略,例如基于规则的生成和基于模型的生成。具体参数设置和模型结构未知。
🖼️ 关键图片
📊 实验亮点
MegaMath包含371B tokens,是目前最大的开放数学预训练数据集。通过消融实验验证了各个数据来源的有效性,表明MegaMath在数量和质量上均优于现有的开放数据集。具体的性能提升数据未知,但论文强调了其在数学LLM预训练中的重要作用。
🎯 应用场景
MegaMath的潜在应用领域包括数学教育、科学研究、工程计算等。高质量的数学语料库可以用于预训练更强大的数学LLM,从而提高模型在数学问题求解、定理证明、公式推导等方面的能力。这将有助于推动数学领域的自动化和智能化,并为相关领域的应用提供更强大的技术支持。未来,MegaMath可以作为基石,促进数学人工智能的发展。
📄 摘要(原文)
Mathematical reasoning is a cornerstone of human intelligence and a key benchmark for advanced capabilities in large language models (LLMs). However, the research community still lacks an open, large-scale, high-quality corpus tailored to the demands of math-centric LLM pre-training. We present MegaMath, an open dataset curated from diverse, math-focused sources through following practices: (1) Revisiting web data: We re-extracted mathematical documents from Common Crawl with math-oriented HTML optimizations, fasttext-based filtering and deduplication, all for acquiring higher-quality data on the Internet. (2) Recalling Math-related code data: We identified high quality math-related code from large code training corpus, Stack-V2, further enhancing data diversity. (3) Exploring Synthetic data: We synthesized QA-style text, math-related code, and interleaved text-code blocks from web data or code data. By integrating these strategies and validating their effectiveness through extensive ablations, MegaMath delivers 371B tokens with the largest quantity and top quality among existing open math pre-training datasets.