MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes

📄 arXiv: 2509.24945v2 📥 PDF

作者: Changsheng Zhao, Ernie Chang, Zechun Liu, Chia-Jung Chang, Wei Wen, Chen Lai, Sheng Cao, Yuandong Tian, Raghuraman Krishnamoorthi, Yangyang Shi, Vikas Chandra

分类: cs.CL, cs.AI

发布日期: 2025-09-29 (更新: 2025-09-30)

备注: Model: https://huggingface.co/collections/facebook/mobilellm-r1-68c4597b104fac45f28f448e


💡 一句话要点

MobileLLM-R1:通过开放训练方案探索十亿参数以下语言模型推理能力的极限

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 推理能力 数据策划 重采样 开源训练 小模型 移动设备 模型优化

📋 核心要点

  1. 现有大型语言模型通常依赖于庞大的数据集(>10T tokens)进行训练,以获得强大的推理能力,这限制了其可访问性和训练成本。
  2. MobileLLM-R1通过精心策划和重采样开源数据集,证明了使用远少于10T tokens的数据也能训练出具有强大推理能力的十亿参数以下模型。
  3. MobileLLM-R1-950M在AIME等推理基准测试中显著优于其他开源模型,甚至在某些任务上与使用更多数据训练的Qwen3-0.6B相媲美。

📝 摘要(中文)

大型语言模型(LLM)的范式转变,从本能反应到思维链(CoT)推理,引发了两个普遍假设:(1)推理能力只出现在足够大的模型中,(2)这种能力需要在海量数据集上进行训练。虽然第一个假设已经受到最近的十亿参数以下推理模型(如Qwen3-0.6B和DeepSeek蒸馏变体)的挑战,但第二个假设在很大程度上仍未受到质疑。在这项工作中,我们重新审视了扩展到极其庞大的语料库(>10T tokens)对于推理能力出现的必要性。通过仔细策划和重新采样我们认为在设计的指标下有益的开源数据集,我们证明了强大的推理能力可以用更少的数据出现。具体来说,我们表明,只有约2T tokens的高质量数据就足够了,并且在从这些约2T tokens重新采样的数据集上进行4.2T tokens的预训练,然后进行已建立的后训练程序,能够开发MobileLLM-R1,这是一系列十亿参数以下的推理模型,其性能大大优于先前在完全开源数据上训练的模型。例如,MobileLLM-R1-950M的AIME得分为15.5,而OLMo-2-1.48B仅为0.6,SmolLM-2-1.7B仅为0.3。值得注意的是,尽管与Qwen3用于预训练的36T-token专有语料库相比,MobileLLM-R1-950M仅在11.7%的tokens上进行了训练,但在多个推理基准测试中,它与Qwen3-0.6B相匹配或超过了Qwen3-0.6B。为了促进这方面的进一步研究,我们发布了完整的训练方案、数据来源、数据混合比例和模型检查点,以及整个研究过程中获得的关键见解。

🔬 方法详解

问题定义:现有的大型语言模型通常需要使用极其庞大的数据集进行训练才能获得较好的推理能力,这导致训练成本高昂,并且限制了模型的部署和应用。现有方法往往忽略了数据质量的重要性,一味追求数据规模的扩大,导致训练效率低下。

核心思路:论文的核心思路是通过精心策划和重采样开源数据集,提高训练数据的质量,从而在较小的数据规模下训练出具有强大推理能力的语言模型。这种方法旨在打破“数据越多越好”的传统观念,强调数据质量的重要性。

技术框架:MobileLLM-R1的训练流程主要包括以下几个阶段:1) 数据集选择与策划:选择合适的开源数据集,并根据设计的指标进行评估和筛选。2) 数据重采样:对选定的数据集进行重采样,以提高数据质量和多样性。3) 预训练:使用重采样后的数据集进行预训练,训练tokens数量为4.2T。4) 后训练:采用已建立的后训练程序,进一步提升模型的推理能力。

关键创新:该论文最重要的技术创新点在于强调了数据质量的重要性,并提出了一种有效的数据策划和重采样方法,能够在较小的数据规模下训练出具有强大推理能力的语言模型。与现有方法相比,该方法更加注重数据的质量而非数量,从而提高了训练效率和模型性能。

关键设计:论文的关键设计包括:1) 数据集选择指标的设计,用于评估和筛选开源数据集。2) 数据重采样的策略,用于提高数据质量和多样性。3) 预训练和后训练的参数设置,例如学习率、batch size等。具体的网络结构沿用了Transformer架构,但针对移动端设备进行了优化,以降低模型大小和计算复杂度。损失函数方面,采用了标准的交叉熵损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MobileLLM-R1-950M在AIME基准测试中取得了15.5的得分,显著优于OLMo-2-1.48B (0.6) 和 SmolLM-2-1.7B (0.3)。更令人瞩目的是,尽管MobileLLM-R1-950M仅使用了Qwen3预训练数据量的11.7%,但在多个推理基准测试中,其性能与Qwen3-0.6B相匹配甚至超越了Qwen3-0.6B。

🎯 应用场景

MobileLLM-R1的研究成果可应用于资源受限的场景,例如移动设备、嵌入式系统等。该模型可以在本地设备上进行推理,无需依赖云端服务器,从而提高响应速度和保护用户隐私。此外,该研究还可以促进低成本、高效率的语言模型训练方法的发展,降低AI技术的门槛。

📄 摘要(原文)

The paradigm shift in large language models (LLMs) from instinctive responses to chain-of-thought (CoT) reasoning has fueled two prevailing assumptions: (1) reasoning capabilities only emerge in sufficiently large models, and (2) such capabilities require training on massive datasets. While the first assumption has already been challenged by recent sub-billion-parameter reasoning models such as Qwen3-0.6B and DeepSeek distilled variants, the second remains largely unquestioned. In this work, we revisit the necessity of scaling to extremely large corpora (>10T tokens) for reasoning emergence. By carefully curating and resampling open-source datasets that we identify as beneficial under our designed metrics, we demonstrate that strong reasoning abilities can emerge with far less data. Specifically, we show that only ~2T tokens of high-quality data are sufficient, and pre-training with 4.2T tokens on the dataset resampled from these ~2T tokens, followed by a established post-training procedure, enables the development of MobileLLM-R1, a series of sub-billion-parameter reasoning models that substantially outperform prior models trained on fully open-sourced data. For example, MobileLLM-R1-950M achieves an AIME score of 15.5, compared to just 0.6 for OLMo-2-1.48B and 0.3 for SmolLM-2-1.7B. Remarkably, despite being trained on only 11.7% of the tokens compared to Qwen3's proprietary 36T-token corpus for pretraining, MobileLLM-R1-950M matches or surpasses Qwen3-0.6B across multiple reasoning benchmarks. To facilitate further research in this direction, we have released the complete training recipe, data sources, data mixing ratio, and model checkpoints, together with the key insights obtained throughout this study.