DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training

📄 arXiv: 2504.17565v3 📥 PDF

作者: Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yiping Peng, Yunjie Ji, Han Zhao, Xiangang Li

分类: cs.CL

发布日期: 2025-04-24 (更新: 2025-05-13)

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

DeepDistill:通过大规模难度分级数据训练提升LLM推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理能力 难度分级数据 蒸馏训练 数学推理 数据选择 学习率调整

📋 核心要点

  1. 现有LLM在复杂推理任务上表现出色,但对基础模型训练过程和数据质量的理解仍有不足。
  2. DeepDistill构建大规模难度分级推理数据集,并利用通过率和变异系数筛选高质量训练数据。
  3. 实验表明,使用DeepDistill训练的模型在AIME2024数学推理基准测试中达到79.2%的通过率,接近SOTA。

📝 摘要(中文)

大型语言模型(LLM)在各种复杂推理基准测试中取得了显著的性能,但学术界对基础模型训练过程和数据质量的深入理解仍然不足。为了解决这个问题,我们构建了一个大规模的、难度分级的推理数据集,包含约334万个不同难度级别的独特查询,以及由多个模型经过多次迭代生成的约4000万个蒸馏响应。利用通过率和变异系数(CV),我们精确地选择最有价值的训练数据来增强推理能力。值得注意的是,我们观察到一种训练模式的转变,表明基于基础模型的推理训练需要更高的学习率才能有效训练。使用这些精心挑选的数据,我们显著提高了基础模型的推理能力,在AIME2024数学推理基准测试中达到了79.2%的通过率。这一结果超过了目前大多数蒸馏模型,并接近最先进的性能。我们提供了数据处理、难度评估和训练方法的详细描述,并公开发布了所有数据集和方法,以促进开源长推理LLM的快速发展。数据集可在以下网址获取:https://huggingface.co/datasets/a-m-team/AM-DeepSeek-Distilled-40M

🔬 方法详解

问题定义:现有大型语言模型在推理能力上取得了进展,但训练数据质量和训练方法仍有提升空间。尤其缺乏大规模、难度分级的数据集,以及针对推理任务的有效训练策略。现有方法难以充分挖掘基础模型的推理潜力。

核心思路:核心在于构建一个大规模、难度分级的数据集,并采用有效的训练策略。通过难度分级,模型可以逐步学习,从简单到复杂,提升推理能力。利用蒸馏技术,从多个模型生成高质量的响应,作为训练数据。

技术框架:整体框架包括数据构建、难度评估、数据选择和模型训练四个主要阶段。数据构建阶段生成大规模的推理问题和对应的答案。难度评估阶段使用通过率和变异系数对数据进行难度分级。数据选择阶段选择高质量、不同难度级别的数据用于训练。模型训练阶段使用选择的数据训练基础模型,并调整学习率等超参数。

关键创新:关键创新在于大规模难度分级数据集的构建和基于通过率和变异系数的数据选择方法。通过难度分级,模型可以更好地学习推理能力。通过率和变异系数可以有效地评估数据的质量和难度,从而选择更有价值的训练数据。此外,论文还发现针对推理任务,需要更高的学习率才能有效训练基础模型。

关键设计:数据集包含约334万个独特查询和4000万个蒸馏响应。难度评估使用通过率和变异系数。训练过程中,针对推理任务调整了学习率。具体而言,论文观察到,对于基于基础模型的推理训练,需要更高的学习率才能实现有效的训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用DeepDistill训练的模型在AIME2024数学推理基准测试中达到了79.2%的通过率。这一结果超过了目前大多数蒸馏模型,并接近最先进的性能。这证明了DeepDistill方法在提升LLM推理能力方面的有效性。

🎯 应用场景

该研究成果可应用于各种需要复杂推理能力的场景,例如数学问题求解、代码生成、逻辑推理等。通过提升LLM的推理能力,可以提高其在这些领域的应用效果,并推动人工智能技术的发展。该数据集和训练方法可以促进开源长推理LLM的快速发展。

📄 摘要(原文)

Although large language models (LLMs) have recently achieved remarkable performance on various complex reasoning benchmarks, the academic community still lacks an in-depth understanding of base model training processes and data quality. To address this, we construct a large-scale, difficulty-graded reasoning dataset containing approximately 3.34 million unique queries of varying difficulty levels and about 40 million distilled responses generated by multiple models over several passes. Leveraging pass rate and Coefficient of Variation (CV), we precisely select the most valuable training data to enhance reasoning capability. Notably, we observe a training pattern shift, indicating that reasoning-focused training based on base models requires higher learning rates for effective training. Using this carefully selected data, we significantly improve the reasoning capabilities of the base model, achieving a pass rate of 79.2\% on the AIME2024 mathematical reasoning benchmark. This result surpasses most current distilled models and closely approaches state-of-the-art performance. We provide detailed descriptions of our data processing, difficulty assessment, and training methodology, and have publicly released all datasets and methods to promote rapid progress in open-source long-reasoning LLMs. The dataset is available at: \href{https://huggingface.co/datasets/a-m-team/AM-DeepSeek-Distilled-40M}{https://huggingface.co/datasets/a-m-team/AM-DeepSeek-Distilled-40M}