Llama-Nemotron: Efficient Reasoning Models
作者: Akhiad Bercovich, Itay Levy, Izik Golan, Mohammad Dabbah, Ran El-Yaniv, Omri Puny, Ido Galil, Zach Moshe, Tomer Ronen, Najeeb Nabwani, Ido Shahaf, Oren Tropp, Ehud Karpas, Ran Zilberstein, Jiaqi Zeng, Soumye Singhal, Alexander Bukharin, Yian Zhang, Tugrul Konuk, Gerald Shen, Ameya Sunil Mahabaleshwarkar, Bilal Kartal, Yoshi Suhara, Olivier Delalleau, Zijia Chen, Zhilin Wang, David Mosallanezhad, Adi Renduchintala, Haifeng Qian, Dima Rekesh, Fei Jia, Somshubra Majumdar, Vahid Noroozi, Wasi Uddin Ahmad, Sean Narenthiran, Aleksander Ficek, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Igor Gitman, Ivan Moshkov, Wei Du, Shubham Toshniwal, George Armstrong, Branislav Kisacanin, Matvei Novikov, Daria Gitman, Evelina Bakhturina, Prasoon Varshney, Makesh Narsimhan, Jane Polak Scowcroft, John Kamalu, Dan Su, Kezhi Kong, Markus Kliegl, Rabeeh Karimi Mahabadi, Ying Lin, Sanjeev Satheesh, Jupinder Parmar, Pritam Gundecha, Brandon Norick, Joseph Jennings, Shrimai Prabhumoye, Syeda Nahida Akter, Mostofa Patwary, Abhinav Khattar, Deepak Narayanan, Roger Waleffe, Jimmy Zhang, Bor-Yiing Su, Guyue Huang, Terry Kong, Parth Chadha, Sahil Jain, Christine Harvey, Elad Segal, Jining Huang, Sergey Kashirsky, Robert McQueen, Izzy Putterman, George Lam, Arun Venkatesan, Sherry Wu, Vinh Nguyen, Manoj Kilaru, Andrew Wang, Anna Warno, Abhilash Somasamudramath, Sandip Bhaskar, Maka Dong, Nave Assaf, Shahar Mor, Omer Ullman Argov, Scot Junkin, Oleksandr Romanenko, Pedro Larroy, Monika Katariya, Marco Rovinelli, Viji Balas, Nicholas Edelman, Anahita Bhiwandiwalla, Muthu Subramaniam, Smita Ithape, Karthik Ramamoorthy, Yuting Wu, Suguna Varshini Velury, Omri Almog, Joyjit Daw, Denys Fridman, Erick Galinkin, Michael Evans, Shaona Ghosh, Katherine Luna, Leon Derczynski, Nikki Pope, Eileen Long, Seth Schneider, Guillermo Siman, Tomasz Grzegorzek, Pablo Ribalta, Monika Katariya, Chris Alexiuk, Joey Conway, Trisha Saar, Ann Guan, Krzysztof Pawelec, Shyamala Prayaga, Oleksii Kuchaiev, Boris Ginsburg, Oluwatobi Olabiyi, Kari Briski, Jonathan Cohen, Bryan Catanzaro, Jonah Alben, Yonatan Geifman, Eric Chung
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-05-02 (更新: 2025-09-09)
💡 一句话要点
Llama-Nemotron系列:高效推理的开源异构模型,支持动态推理切换
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 推理模型 神经架构搜索 知识蒸馏 强化学习 开源模型 动态推理 异构模型 语言模型
📋 核心要点
- 现有推理模型在效率和可定制性方面存在挑战,难以兼顾高性能和灵活的企业应用。
- Llama-Nemotron系列通过神经架构搜索、知识蒸馏和强化学习等技术,构建高效且可动态切换推理模式的模型。
- 实验表明,Llama-Nemotron模型在推理性能上与领先模型相当,同时提升了推理吞吐量和内存效率。
📝 摘要(中文)
本文介绍了Llama-Nemotron系列模型,这是一个开源的异构推理模型家族,具有卓越的推理能力、高效的推理效率以及可用于企业用途的开放许可。该系列包含三种尺寸的模型:Nano (8B)、Super (49B) 和 Ultra (253B),在性能上与DeepSeek-R1等最先进的推理模型具有竞争力,同时提供更高的推理吞吐量和内存效率。本文讨论了这些模型的训练过程,包括使用来自Llama 3模型的神经架构搜索以加速推理、知识蒸馏和持续预训练,然后是侧重于推理的后训练阶段,该阶段包含两个主要部分:监督微调和大规模强化学习。Llama-Nemotron模型是首批支持动态推理切换的开源模型,允许用户在推理期间在标准聊天模式和推理模式之间切换。为了进一步支持开放研究并促进模型开发,我们提供了以下资源:Llama-Nemotron推理模型(LN-Nano、LN-Super和LN-Ultra),Llama-Nemotron-Post-Training-Dataset完整后训练数据集,以及NeMo、NeMo-Aligner和Megatron-LM训练代码库。
🔬 方法详解
问题定义:现有的大型语言模型在推理能力上取得了显著进展,但通常存在推理效率低、内存占用高的问题,限制了其在资源受限环境中的部署。此外,缺乏灵活的推理模式切换机制,使得模型难以适应不同的应用场景。
核心思路:Llama-Nemotron系列的核心思路是构建一个异构模型家族,通过神经架构搜索优化模型结构,利用知识蒸馏将大型模型的知识迁移到小型模型,并通过强化学习进一步提升推理能力。动态推理切换机制允许用户根据需求灵活选择推理模式。
技术框架:Llama-Nemotron的训练过程包括以下几个主要阶段:1) 基于Llama 3进行神经架构搜索,优化模型结构以加速推理;2) 利用知识蒸馏将大型模型的知识迁移到小型模型;3) 进行持续预训练,提升模型的通用能力;4) 通过监督微调和大规模强化学习进行后训练,重点提升推理能力。该框架还支持动态推理切换,允许用户在标准聊天模式和推理模式之间切换。
关键创新:Llama-Nemotron系列的关键创新在于:1) 采用神经架构搜索优化模型结构,提升推理效率;2) 引入动态推理切换机制,增强模型的灵活性;3) 开源发布模型、数据集和训练代码,促进开放研究和模型开发。
关键设计:具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明,属于未公开信息。但可以推测,神经架构搜索可能涉及特定的搜索空间和优化算法,知识蒸馏可能采用特定的蒸馏损失函数,强化学习可能使用特定的奖励函数来引导模型学习推理策略。动态推理切换机制的具体实现方式也未知。
🖼️ 关键图片
📊 实验亮点
Llama-Nemotron模型在推理性能上与DeepSeek-R1等先进模型具有竞争力,同时提供了更高的推理吞吐量和内存效率。该系列模型包含Nano (8B)、Super (49B) 和 Ultra (253B) 三种尺寸,满足不同应用场景的需求。动态推理切换功能为用户提供了更大的灵活性。
🎯 应用场景
Llama-Nemotron系列模型可广泛应用于需要高效推理和灵活部署的场景,例如智能客服、金融分析、代码生成、教育辅导等。其开源特性和商业许可使其能够被企业用于构建定制化的AI解决方案,加速AI技术在各行业的落地。
📄 摘要(原文)
We introduce the Llama-Nemotron series of models, an open family of heterogeneous reasoning models that deliver exceptional reasoning capabilities, inference efficiency, and an open license for enterprise use. The family comes in three sizes -- Nano (8B), Super (49B), and Ultra (253B) -- and performs competitively with state-of-the-art reasoning models such as DeepSeek-R1 while offering superior inference throughput and memory efficiency. In this report, we discuss the training procedure for these models, which entails using neural architecture search from Llama 3 models for accelerated inference, knowledge distillation, and continued pretraining, followed by a reasoning-focused post-training stage consisting of two main parts: supervised fine-tuning and large scale reinforcement learning. Llama-Nemotron models are the first open-source models to support a dynamic reasoning toggle, allowing users to switch between standard chat and reasoning modes during inference. To further support open research and facilitate model development, we provide the following resources: 1. We release the Llama-Nemotron reasoning models -- LN-Nano, LN-Super, and LN-Ultra -- under the commercially permissive NVIDIA Open Model License Agreement. 2. We release the complete post-training dataset: Llama-Nemotron-Post-Training-Dataset. 3. We also release our training codebases: NeMo, NeMo-Aligner, and Megatron-LM.