MASS: Mathematical Data Selection via Skill Graphs for Pretraining Large Language Models

📄 arXiv: 2503.14917v2 📥 PDF

作者: Jiazheng Li, Lu Yu, Qing Cui, Zhiqiang Zhang, Jun Zhou, Yanfang Ye, Chuxu Zhang

分类: cs.CL, cs.AI

发布日期: 2025-03-19 (更新: 2025-07-06)


💡 一句话要点

提出MASS框架,利用技能图谱进行数学领域大语言模型预训练的数据选择。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 预训练 数据选择 技能图谱 数学推理

📋 核心要点

  1. 现有数据选择方法侧重通用数据,忽略了数学等领域数据的特殊性,导致预训练效率和效果受限。
  2. MASS框架构建技能图谱,捕捉数学技能及其关系,用于评估和选择高质量的数学预训练数据。
  3. 实验表明,MASS在减少训练token数量的同时,还能提升模型在数学推理任务上的性能。

📝 摘要(中文)

高质量数据对于大语言模型(LLMs)的预训练和微调至关重要,甚至在某种程度上决定了其性能上限。因此,许多数据选择方法被提出,旨在识别能够有效提升模型性能的数据子集。然而,这些方法大多侧重于通用数据选择,忽略了领域相关数据的特定细微之处。本文提出了MASS,一个利用技能图谱进行数学推理领域LLMs预训练的数学数据选择框架。通过考虑数学和推理的独特特征,我们构建了一个技能图谱,捕捉参考数据集中的数学技能及其相互关系。该技能图谱指导我们为目标数据集分配质量分数,从而选择排名最高的子集用于LLMs的预训练。实验结果表明,MASS在不同模型规模(1B和7B)和预训练数据集(网络数据和合成数据)上都具有效率和有效性。具体而言,在效率方面,使用MASS选择的子集训练的模型可以达到与使用原始数据集训练的模型相似的性能,但训练token数量显著减少,减少幅度为50%到70%。在有效性方面,在相同token数量下,使用MASS选择的数据训练的模型比使用原始数据集训练的模型性能高出3.3%到5.9%。这些结果突显了MASS在提高LLMs预训练效率和有效性方面的潜力。

🔬 方法详解

问题定义:论文旨在解决数学领域大语言模型预训练中数据选择的问题。现有方法通常采用通用数据选择策略,忽略了数学数据的特殊结构和知识依赖关系,导致预训练效率低下,模型在数学推理任务上的表现提升有限。

核心思路:论文的核心思路是构建一个数学技能图谱,该图谱能够显式地表示数学技能以及它们之间的依赖关系。通过该技能图谱,可以对数学数据进行更细粒度的评估,从而选择出更适合模型学习的高质量数据子集。这种方法能够提高预训练的效率和效果,使模型更好地掌握数学知识和推理能力。

技术框架:MASS框架主要包含以下几个阶段:1) 技能图谱构建:从参考数据集中提取数学技能,并分析它们之间的关系,构建技能图谱。2) 数据质量评估:利用技能图谱对目标数据集中的每个数据样本进行质量评估,生成质量分数。3) 数据选择:根据质量分数对数据样本进行排序,选择排名最高的子集用于预训练。

关键创新:MASS的关键创新在于利用技能图谱来指导数学数据的选择。与传统的基于统计或启发式规则的数据选择方法不同,MASS能够显式地建模数学知识和技能,从而更准确地评估数据的质量。这种基于知识的数据选择方法能够显著提高预训练的效率和效果。

关键设计:技能图谱的构建是MASS的关键。论文中,技能图谱的节点表示数学技能,边表示技能之间的依赖关系。技能的提取和关系的构建依赖于对数学知识的理解和分析。数据质量评估则基于数据样本覆盖的技能以及技能之间的依赖关系进行计算。具体的质量评分函数和技能图谱构建方法在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用MASS选择的数据进行预训练,在相同token数量下,模型性能比使用原始数据集训练的模型高出3.3%到5.9%。此外,使用MASS选择的子集训练的模型,在训练token数量减少50%到70%的情况下,可以达到与使用原始数据集训练的模型相似的性能。这些结果充分证明了MASS在提高预训练效率和效果方面的优势。

🎯 应用场景

MASS框架可应用于各种需要数学推理能力的大语言模型预训练场景,例如自动定理证明、数学问题求解、科学计算等。通过选择高质量的数学数据,可以显著提高模型在这些任务上的性能,并降低训练成本。此外,该方法还可以推广到其他领域,例如代码生成、知识图谱推理等,具有广泛的应用前景。

📄 摘要(原文)

High-quality data plays a critical role in the pretraining and fine-tuning of large language models (LLMs), even determining their performance ceiling to some degree. Consequently, numerous data selection methods have been proposed to identify subsets of data that can effectively and efficiently enhance model performance. However, most of these methods focus on general data selection and tend to overlook the specific nuances of domain-related data. In this paper, we introduce MASS, a \textbf{MA}thematical data \textbf{S}election framework using the \textbf{S}kill graph for pretraining LLMs in the mathematical reasoning domain. By taking into account the unique characteristics of mathematics and reasoning, we construct a skill graph that captures the mathematical skills and their interrelations from a reference dataset. This skill graph guides us in assigning quality scores to the target dataset, enabling us to select the top-ranked subset which is further used to pretrain LLMs. Experimental results demonstrate the efficiency and effectiveness of MASS across different model sizes (1B and 7B) and pretraining datasets (web data and synthetic data). Specifically, in terms of efficiency, models trained on subsets selected by MASS can achieve similar performance to models trained on the original datasets, with a significant reduction in the number of trained tokens - ranging from 50\% to 70\% fewer tokens. In terms of effectiveness, when trained on the same amount of tokens, models trained on the data selected by MASS outperform those trained on the original datasets by 3.3\% to 5.9\%. These results underscore the potential of MASS to improve both the efficiency and effectiveness of pretraining LLMs.