Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation
作者: Zhuolin Yang, Zihan Liu, Yang Chen, Wenliang Dai, Boxin Wang, Sheng-Chieh Lin, Chankyu Lee, Yangyi Chen, Dongfu Jiang, Jiafan He, Renjie Pi, Grace Lam, Nayeon Lee, Alexander Bukharin, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-03-19
备注: We release the model and data at https://huggingface.co/collections/nvidia/nemotron-cascade-2
💡 一句话要点
Nemotron-Cascade 2:利用级联强化学习和多域策略蒸馏训练30B MoE大模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)
关键词: 大语言模型 混合专家模型 强化学习 策略蒸馏 推理能力 Agent能力 参数效率 多域学习
📋 核心要点
- 现有大语言模型在推理和Agent能力方面仍有提升空间,尤其是在参数效率方面。
- Nemotron-Cascade 2通过扩展Cascade RL并引入多域On-Policy蒸馏,提升模型在推理和Agent任务上的性能。
- 该模型在数学、代码等推理任务上达到金牌水平,同时保持了较小的模型尺寸和较高的参数效率。
📝 摘要(中文)
本文介绍了Nemotron-Cascade 2,一个开放的30B MoE模型,激活参数量为3B,在推理和强大的Agent能力方面表现出色。尽管模型尺寸紧凑,其数学和代码推理性能接近前沿开放模型。它是继DeepSeekV3.2-Speciale-671B-A37B之后,第二个在2025年国际数学奥林匹克(IMO)、国际信息学奥林匹克(IOI)和ICPC世界总决赛中达到金牌水平的开源LLM,以20倍更少的参数展示了极高的智能密度。与Nemotron-Cascade 1相比,关键的技术进步如下:在对精心策划的数据集进行SFT之后,我们大幅扩展了Cascade RL,以覆盖更广泛的推理和Agent领域。此外,我们引入了来自每个领域中最强大的中间教师模型的多域On-Policy蒸馏,从而使我们能够有效地恢复基准回归,并在此过程中保持强大的性能提升。我们发布了模型检查点和训练数据集。
🔬 方法详解
问题定义:现有的大语言模型,尤其是在开放权重领域,在推理能力和Agent能力上仍然存在提升空间。同时,如何以更小的模型尺寸实现更高的智能密度,即参数效率,也是一个重要的挑战。现有的方法可能需要更大的模型尺寸才能达到相同的性能水平,或者在某些特定领域表现不佳。
核心思路:Nemotron-Cascade 2的核心思路是利用Cascade RL(级联强化学习)来训练模型,并结合多域On-Policy蒸馏,从各个领域的最强教师模型中学习。通过这种方式,模型可以有效地学习到各个领域的知识,并在推理和Agent任务上取得更好的性能。同时,MoE架构的使用也提高了模型的参数效率。
技术框架:Nemotron-Cascade 2的训练流程主要包括以下几个阶段:首先,使用精心策划的数据集进行监督微调(SFT)。然后,使用扩展的Cascade RL对模型进行强化学习训练,覆盖更广泛的推理和Agent领域。在Cascade RL的过程中,引入多域On-Policy蒸馏,从每个领域中最强的中间教师模型中学习。最后,对模型进行评估和发布。
关键创新:该论文的关键创新点在于:1) 大幅扩展了Cascade RL,使其能够覆盖更广泛的推理和Agent领域。2) 引入了多域On-Policy蒸馏,从每个领域中最强的中间教师模型中学习,从而有效地恢复基准回归,并保持强大的性能提升。3) 在30B MoE模型上实现了金牌级别的推理能力,展示了极高的智能密度。
关键设计:论文中提到使用了30B MoE模型,激活参数量为3B。Cascade RL的具体实现细节和奖励函数设计未知。多域On-Policy蒸馏的具体实现方式,包括教师模型的选择、蒸馏损失函数的设计等,也需要进一步研究论文或代码才能了解。
📊 实验亮点
Nemotron-Cascade 2在2025年国际数学奥林匹克(IMO)、国际信息学奥林匹克(IOI)和ICPC世界总决赛中达到金牌水平,是第二个达到此水平的开源LLM。该模型仅使用30B参数,激活参数量为3B,展示了极高的智能密度,参数效率是其他模型的20倍。
🎯 应用场景
Nemotron-Cascade 2可应用于需要强大推理和Agent能力的各种场景,例如智能助手、自动化代码生成、数学问题求解、科学研究等。其较小的模型尺寸和较高的参数效率使其更易于部署在资源受限的环境中。该研究有助于推动大语言模型在实际应用中的普及。
📄 摘要(原文)
We introduce Nemotron-Cascade 2, an open 30B MoE model with 3B activated parameters that delivers best-in-class reasoning and strong agentic capabilities. Despite its compact size, its mathematical and coding reasoning performance approaches that of frontier open models. It is the second open-weight LLM, after DeepSeekV3.2-Speciale-671B-A37B, to achieve Gold Medal-level performance in the 2025 International Mathematical Olympiad (IMO), the International Olympiad in Informatics (IOI), and the ICPC World Finals, demonstrating remarkably high intelligence density with 20x fewer parameters. In contrast to Nemotron-Cascade 1, the key technical advancements are as follows. After SFT on a meticulously curated dataset, we substantially expand Cascade RL to cover a much broader spectrum of reasoning and agentic domains. Furthermore, we introduce multi-domain on-policy distillation from the strongest intermediate teacher models for each domain throughout the Cascade RL process, allowing us to efficiently recover benchmark regressions and sustain strong performance gains along the way. We release the collection of model checkpoint and training data.