MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization

作者: Xingxuan Li, Yao Xiao, Dianwen Ng, Hai Ye, Yue Deng, Xiang Lin, Bin Wang, Zhanfeng Mo, Chong Zhang, Yueyi Zhang, Zonglin Yang, Ruilin Li, Lei Lei, Shihao Xu, Han Zhao, Weiling Chen, Feng Ji, Lidong Bing

分类: cs.CL

发布日期: 2025-07-19

备注: Technical report

💡 一句话要点

MiroMind-M1：通过上下文感知多阶段策略优化，实现数学推理的开源进展

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数学推理 大型语言模型 强化学习 开源模型 上下文感知 策略优化 价值对齐

📋 核心要点

现有闭源推理语言模型（RLM）如GPT-o3虽然强大，但缺乏透明度和可复现性，开源RLM则往往缺少关键资源。
论文提出上下文感知多阶段策略优化算法，结合长度渐进训练和自适应重复惩罚，提升RLVR过程的鲁棒性和效率。
MiroMind-M1系列模型在数学推理基准测试中，达到或超过现有开源RLM的性能，并开源全部资源以促进研究。

📝 摘要（中文）

大型语言模型（LLM）最近已从流畅的文本生成发展到跨多个领域的高级推理，从而产生了推理语言模型（RLM）。在这些领域中，数学推理是一个具有代表性的基准，因为它需要精确的多步骤逻辑和抽象推理，这些可以推广到其他任务。虽然像GPT-o3这样的闭源RLM表现出令人印象深刻的推理能力，但它们的专有性质限制了透明度和可重复性。虽然许多开源项目旨在缩小这一差距，但它们中的大多数由于省略了关键资源（如数据集和详细的训练配置）而缺乏足够的开放性，这阻碍了可重复性。为了促进RLM开发中更大的透明度，我们推出了MiroMind-M1系列，这是一组建立在Qwen-2.5主干上的完全开源RLM，其性能与现有的开源RLM相匹配或超过。具体来说，我们的模型分两个阶段进行训练：首先在精心策划的包含719K个数学推理问题的语料库上进行SFT，并验证了CoT轨迹，然后在62K个具有挑战性和可验证的问题上进行RLVR。为了提高RLVR过程的鲁棒性和效率，我们引入了上下文感知多阶段策略优化，该算法将长度渐进训练与自适应重复惩罚相结合，以鼓励上下文感知的RL训练。我们的模型在AIME24、AIME25和MATH基准测试中，在基于Qwen-2.5的开源7B和32B模型中实现了最先进或具有竞争力的性能以及卓越的token效率。为了方便重现，我们发布了完整的堆栈：模型（MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B、MiroMind-M1-RL-32B）；数据集（MiroMind-M1-SFT-719K、MiroMind-M1-RL-62K）；以及所有训练和评估配置。我们希望这些资源将支持进一步的研究并促进社区发展。

🔬 方法详解

问题定义：论文旨在解决开源推理语言模型（RLM）在数学推理任务中，性能与闭源模型存在差距，且现有开源项目缺乏透明度和可复现性的问题。现有方法的痛点在于数据集、训练配置等关键资源的缺失，以及训练过程的效率和鲁棒性不足。

核心思路：论文的核心解决思路是构建完全开源的RLM，并采用上下文感知多阶段策略优化算法来提升模型的推理能力和训练效率。通过精心策划的数学推理数据集进行监督微调（SFT），然后使用强化学习进行价值对齐（RLVR），从而使模型能够更好地解决复杂的数学问题。

技术框架：整体框架包含两个主要阶段：SFT和RLVR。SFT阶段使用包含719K个数学推理问题的语料库进行训练，并验证CoT轨迹。RLVR阶段使用62K个具有挑战性和可验证的问题，并采用上下文感知多阶段策略优化算法。该算法的核心是长度渐进训练和自适应重复惩罚。

关键创新：最重要的技术创新点是上下文感知多阶段策略优化算法。该算法通过长度渐进训练，使模型能够逐步学习解决更长的推理链问题。自适应重复惩罚则可以避免模型在生成过程中陷入重复，从而提高生成质量和效率。

关键设计：长度渐进训练的具体实现方式是，在RLVR过程中，逐步增加训练样本的长度。自适应重复惩罚则根据模型的生成历史动态调整惩罚力度。此外，论文还精心设计了SFT和RLVR阶段的数据集，并开源了所有训练和评估配置。

🖼️ 关键图片

📊 实验亮点

MiroMind-M1系列模型在AIME24、AIME25和MATH基准测试中，在基于Qwen-2.5的开源7B和32B模型中实现了最先进或具有竞争力的性能，并具有卓越的token效率。例如，在AIME24测试集上取得了显著的性能提升，证明了所提出的上下文感知多阶段策略优化算法的有效性。

🎯 应用场景

该研究成果可广泛应用于数学教育、科学研究、金融分析等领域，为解决复杂问题提供强大的推理能力。开源的模型和数据集有助于推动相关领域的研究进展，促进人工智能技术的普及和应用，并为开发更智能的AI系统奠定基础。

📄 摘要（原文）

Large language models have recently evolved from fluent text generation to advanced reasoning across diverse domains, giving rise to reasoning language models. Among these domains, mathematical reasoning serves as a representative benchmark as it requires precise multi-step logic and abstract reasoning, which can be generalized to other tasks. While closed-source RLMs such as GPT-o3 demonstrate impressive reasoning capabilities, their proprietary nature limits transparency and reproducibility. Although many open-source projects aim to close this gap, most of them lack sufficient openness by omitting critical resources such as datasets and detailed training configurations, which hinders reproducibility. To contribute toward greater transparency in RLM development, we introduce the MiroMind-M1 series, a set of fully open-source RLMs built on the Qwen-2.5 backbone that match or exceed the performance of existing open-source RLMs. Specifically, our models are trained in two stages: SFT on a carefully curated corpus of 719K math-reasoning problems with verified CoT trajectories, followed by RLVR on 62K challenging and verifiable problems. To enhance the robustness and efficiency of the RLVR process, we introduce Context-Aware Multi-Stage Policy Optimization, an algorithm that integrates length-progressive training with an adaptive repetition penalty to encourage context-aware RL training. Our model achieves state-of-the-art or competitive performance and superior token efficiency among Qwen-2.5-based open-source 7B and 32B models on the AIME24, AIME25, and MATH benchmarks. To facilitate reproducibility, we release the complete stack: models (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); datasets (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); and all training and evaluation configurations. We hope these resources will support further research and foster community advancement.

MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理