MiMo-V2-Flash Technical Report

📄 arXiv: 2601.02780v1 📥 PDF

作者: Bangjun Xiao, Bingquan Xia, Bo Yang, Bofei Gao, Bowen Shen, Chen Zhang, Chenhong He, Chiheng Lou, Fuli Luo, Gang Wang, Gang Xie, Hailin Zhang, Hanglong Lv, Hanyu Li, Heyu Chen, Hongshen Xu, Houbin Zhang, Huaqiu Liu, Jiangshan Duo, Jianyu Wei, Jiebao Xiao, Jinhao Dong, Jun Shi, Junhao Hu, Kainan Bao, Kang Zhou, Lei Li, Liang Zhao, Linghao Zhang, Peidian Li, Qianli Chen, Shaohui Liu, Shihua Yu, Shijie Cao, Shimao Chen, Shouqiu Yu, Shuo Liu, Tianling Zhou, Weijiang Su, Weikun Wang, Wenhan Ma, Xiangwei Deng, Bohan Mao, Bowen Ye, Can Cai, Chenghua Wang, Chengxuan Zhu, Chong Ma, Chun Chen, Chunan Li, Dawei Zhu, Deshan Xiao, Dong Zhang, Duo Zhang, Fangyue Liu, Feiyu Yang, Fengyuan Shi, Guoan Wang, Hao Tian, Hao Wu, Heng Qu, Hongfei Yi, Hongxu An, Hongyi Guan, Xing Zhang, Yifan Song, Yihan Yan, Yihao Zhao, Yingchun Lai, Yizhao Gao, Yu Cheng, Yuanyuan Tian, Yudong Wang, Zhen Tang, Zhengju Tang, Zhengtao Wen, Zhichao Song, Zhixian Zheng, Zihan Jiang, Jian Wen, Jiarui Sun, Jiawei Li, Jinlong Xue, Jun Xia, Kai Fang, Menghang Zhu, Nuo Chen, Qian Tu, Qihao Zhang, Qiying Wang, Rang Li, Rui Ma, Shaolei Zhang, Shengfan Wang, Shicheng Li, Shuhao Gu, Shuhuai Ren, Sirui Deng, Tao Guo, Tianyang Lu, Weiji Zhuang, Weikang Zhang, Weimin Xiong, Wenshan Huang, Wenyu Yang, Xin Zhang, Xing Yong, Xu Wang, Xueyang Xie, Yilin Jiang, Yixin Yang, Yongzhe He, Yu Tu, Yuanliang Dong, Yuchen Liu, Yue Ma, Yue Yu, Yuxing Xiang, Zhaojun Huang, Zhenru Lin, Zhipeng Xu, Zhiyang Chen, Zhonghua Deng, Zihan Zhang, Zihao Yue

分类: cs.CL, cs.AI

发布日期: 2026-01-06

备注: 31 pages, technical report


💡 一句话要点

MiMo-V2-Flash:一种参数总量309B、激活参数15B的混合专家模型,旨在实现快速推理和强大的Agent能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 混合专家模型 滑动窗口注意力 多教师蒸馏 On-Policy学习 推测解码 多Token预测 大语言模型 Agent能力

📋 核心要点

  1. 现有大模型推理速度慢、参数量大,难以兼顾效率与性能,限制了其在实际Agent应用中的部署。
  2. MiMo-V2-Flash采用混合专家模型和混合注意力机制,结合多教师On-Policy蒸馏,提升模型推理速度和Agent能力。
  3. 实验表明,MiMo-V2-Flash在参数量更少的情况下,性能可与DeepSeek-V3.2和Kimi-K2等顶级开源模型媲美,并实现了显著的推理加速。

📝 摘要(中文)

本文介绍了MiMo-V2-Flash,一个混合专家(MoE)模型,总参数量为309B,激活参数量为15B,专为快速、强大的推理和Agent能力而设计。MiMo-V2-Flash采用混合注意力架构,将滑动窗口注意力(SWA)与全局注意力交错使用,在5:1的混合比例下使用128个token的滑动窗口。该模型在27万亿个token上使用多token预测(MTP)进行预训练,采用原生32k上下文长度,并随后扩展到256k。为了有效地扩展后训练计算,MiMo-V2-Flash引入了一种新颖的多教师On-Policy蒸馏(MOPD)范式。在该框架中,领域专家教师(例如,通过大规模强化学习训练)提供密集且token级别的奖励,使学生模型能够完美地掌握教师的专业知识。MiMo-V2-Flash可以与顶级的开源权重模型(如DeepSeek-V3.2和Kimi-K2)相媲美,尽管仅使用了它们总参数的1/2和1/3。在推理过程中,通过将MTP重新用作推测解码的草稿模型,MiMo-V2-Flash在使用三个MTP层的情况下,实现了高达3.6的接受长度和2.6倍的解码加速。我们开源了模型权重和三层MTP权重,以促进开放研究和社区协作。

🔬 方法详解

问题定义:现有的大型语言模型在推理速度和模型大小之间存在权衡。为了达到高性能,模型通常需要大量的参数,这导致推理速度慢,资源消耗高,难以部署在资源受限的环境中。此外,如何有效地利用领域知识来提升模型的Agent能力也是一个挑战。

核心思路:MiMo-V2-Flash的核心思路是利用混合专家模型(MoE)来减少激活参数的数量,从而提高推理速度。同时,采用混合注意力机制和多教师On-Policy蒸馏(MOPD)来提升模型的性能和Agent能力。通过将MTP作为推测解码的草稿模型,进一步加速推理过程。

技术框架:MiMo-V2-Flash的整体架构包括预训练阶段和后训练阶段。在预训练阶段,模型在27万亿个token上使用多token预测(MTP)进行训练,并扩展上下文长度。在后训练阶段,采用多教师On-Policy蒸馏(MOPD)来提升模型的性能。推理阶段利用MTP进行推测解码,加速推理过程。

关键创新:该论文的关键创新点在于:1) 混合注意力架构,结合滑动窗口注意力和全局注意力,在长文本处理中兼顾效率和性能。2) 多教师On-Policy蒸馏(MOPD)范式,利用领域专家教师提供token级别的奖励,提升学生模型的专业知识。3) 将MTP重新用作推测解码的草稿模型,加速推理过程。

关键设计:混合注意力机制采用5:1的滑动窗口注意力(SWA)与全局注意力混合比例,滑动窗口大小为128个token。多教师On-Policy蒸馏(MOPD)使用领域专家教师通过强化学习提供token级别的奖励信号。MTP模型被用作推测解码的草稿模型,通过三层MTP实现推理加速。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MiMo-V2-Flash在参数量仅为DeepSeek-V3.2的1/2和Kimi-K2的1/3的情况下,性能可与之媲美。通过将MTP用作推测解码的草稿模型,实现了高达3.6的接受长度和2.6倍的解码加速。开源模型权重和三层MTP权重,促进开放研究和社区协作。

🎯 应用场景

MiMo-V2-Flash适用于需要快速推理和强大Agent能力的各种应用场景,例如智能助手、对话系统、自动化客服、游戏AI等。其高效的推理能力和领域知识掌握能力使其能够在资源受限的环境中提供高质量的服务,并有望推动Agent技术在各行业的广泛应用。

📄 摘要(原文)

We present MiMo-V2-Flash, a Mixture-of-Experts (MoE) model with 309B total parameters and 15B active parameters, designed for fast, strong reasoning and agentic capabilities. MiMo-V2-Flash adopts a hybrid attention architecture that interleaves Sliding Window Attention (SWA) with global attention, with a 128-token sliding window under a 5:1 hybrid ratio. The model is pre-trained on 27 trillion tokens with Multi-Token Prediction (MTP), employing a native 32k context length and subsequently extended to 256k. To efficiently scale post-training compute, MiMo-V2-Flash introduces a novel Multi-Teacher On-Policy Distillation (MOPD) paradigm. In this framework, domain-specialized teachers (e.g., trained via large-scale reinforcement learning) provide dense and token-level reward, enabling the student model to perfectly master teacher expertise. MiMo-V2-Flash rivals top-tier open-weight models such as DeepSeek-V3.2 and Kimi-K2, despite using only 1/2 and 1/3 of their total parameters, respectively. During inference, by repurposing MTP as a draft model for speculative decoding, MiMo-V2-Flash achieves up to 3.6 acceptance length and 2.6x decoding speedup with three MTP layers. We open-source both the model weights and the three-layer MTP weights to foster open research and community collaboration.