MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

📄 arXiv: 2505.07608v2 📥 PDF

作者: LLM-Core Xiaomi, :, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, Kai Fang, Kang Zhou, Kangyang Zhou, Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-05-12 (更新: 2025-06-05)

🔗 代码/项目: GITHUB


💡 一句话要点

MiMo-7B:通过预训练和后训练优化,解锁语言模型的推理潜力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理任务 预训练 后训练 强化学习 数学问题求解 代码生成

📋 核心要点

  1. 现有语言模型在复杂推理任务中面临挑战,尤其是在数学和编程等领域,需要更强的推理能力。
  2. MiMo-7B通过改进预训练数据处理、引入多Token预测目标和强化学习后训练,提升模型的推理能力。
  3. 实验结果表明,MiMo-7B在推理任务上表现出色,甚至超越了更大的模型,并在数学、代码和通用推理方面优于OpenAI o1-mini。

📝 摘要(中文)

本文介绍了MiMo-7B,一个专为推理任务设计的大型语言模型,其优化贯穿预训练和后训练两个阶段。在预训练阶段,我们增强了数据预处理流程,并采用三阶段数据混合策略来强化基础模型的推理潜力。MiMo-7B-Base在25万亿tokens上进行预训练,并额外引入了多Token预测目标,以提高性能并加速推理速度。在后训练阶段,我们精心策划了一个包含13万个可验证的数学和编程问题的强化学习数据集,整合了测试难度驱动的代码奖励方案,以缓解稀疏奖励问题,并采用战略性数据重采样来稳定训练。广泛的评估表明,MiMo-7B-Base具有卓越的推理潜力,甚至优于更大的32B模型。最终经过RL调优的模型MiMo-7B-RL在数学、代码和通用推理任务上取得了优异的性能,超过了OpenAI o1-mini的性能。模型checkpoints可在https://github.com/xiaomimimo/MiMo获取。

🔬 方法详解

问题定义:现有大型语言模型在复杂推理任务,特别是需要精确计算和逻辑推理的数学和编程问题上,表现仍有不足。奖励稀疏和训练不稳定是后训练阶段面临的主要痛点。

核心思路:通过在预训练阶段增强基础模型的推理潜力,并在后训练阶段利用强化学习进行微调,从而提升模型在推理任务上的整体性能。关键在于数据质量的提升和训练策略的优化。

技术框架:MiMo-7B的训练分为预训练和后训练两个阶段。预训练阶段,使用增强的数据预处理流程和三阶段数据混合策略,并在大量tokens上进行训练。后训练阶段,构建包含数学和编程问题的强化学习数据集,并采用测试难度驱动的代码奖励方案和战略性数据重采样。

关键创新:主要创新点在于:1) 预训练阶段的多Token预测目标,旨在提高性能并加速推理速度;2) 后训练阶段的测试难度驱动的代码奖励方案,用于解决强化学习中的稀疏奖励问题;3) 战略性数据重采样,用于稳定训练过程。

关键设计:预训练阶段采用25万亿tokens进行训练,并设计了特定的数据混合比例。后训练阶段,数据集包含13万个数学和编程问题,奖励函数的设计与问题的难度相关,数据重采样的具体策略未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MiMo-7B-Base在推理潜力上超越了更大的32B模型。经过强化学习调优的MiMo-7B-RL在数学、代码和通用推理任务上均优于OpenAI o1-mini。这些结果表明,通过有效的预训练和后训练策略,可以显著提升语言模型在推理任务上的性能。

🎯 应用场景

MiMo-7B在数学问题求解、代码生成与理解、以及通用推理等领域具有广泛的应用前景。它可以应用于智能教育、自动化编程、智能助手等场景,提升相关应用的智能化水平和问题解决能力,并可能推动AI在科学研究等领域的应用。

📄 摘要(原文)

We present MiMo-7B, a large language model born for reasoning tasks, with optimization across both pre-training and post-training stages. During pre-training, we enhance the data preprocessing pipeline and employ a three-stage data mixing strategy to strengthen the base model's reasoning potential. MiMo-7B-Base is pre-trained on 25 trillion tokens, with additional Multi-Token Prediction objective for enhanced performance and accelerated inference speed. During post-training, we curate a dataset of 130K verifiable mathematics and programming problems for reinforcement learning, integrating a test-difficulty-driven code-reward scheme to alleviate sparse-reward issues and employing strategic data resampling to stabilize training. Extensive evaluations show that MiMo-7B-Base possesses exceptional reasoning potential, outperforming even much larger 32B models. The final RL-tuned model, MiMo-7B-RL, achieves superior performance on mathematics, code and general reasoning tasks, surpassing the performance of OpenAI o1-mini. The model checkpoints are available at https://github.com/xiaomimimo/MiMo.