INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning
作者: Prime Intellect Team, Sami Jaghouar, Justus Mattern, Jack Min Ong, Jannik Straube, Manveer Basra, Aaron Pazdera, Kushal Thaman, Matthew Di Ferrante, Felix Gabriel, Fares Obeid, Kemal Erdem, Michael Keiblinger, Johannes Hagemann
分类: cs.LG, cs.DC
发布日期: 2025-05-12
备注: 26 pages, 12 figures
💡 一句话要点
INTELLECT-2:通过全球分布式强化学习训练的320亿参数推理模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 分布式强化学习 语言模型训练 去中心化训练 异步强化学习 推理模型 PRIME-RL TOPLOC SHARDCAST
📋 核心要点
- 现有集中式训练方法难以有效利用大规模异构计算资源进行强化学习推理模型训练。
- 提出INTELLECT-2,通过全球分布式异步强化学习,利用PRIME-RL框架训练推理模型。
- INTELLECT-2在32B参数范围内超越了最先进的推理模型QwQ-32B,展示了分布式训练的有效性。
📝 摘要(中文)
本文介绍了INTELLECT-2,这是一个首次在全球分布式环境下,使用320亿参数语言模型进行强化学习(RL)训练的尝试。与传统的集中式训练不同,INTELLECT-2利用完全异步的RL,在一个动态的、异构的、无需许可的计算贡献者集群上训练推理模型。为了支持这种独特的训练基础设施,我们从头构建了多个组件:我们推出了PRIME-RL,这是一个专为分布式异步强化学习设计的训练框架,它基于诸如TOPLOC(用于验证来自不受信任的推理工作者的rollout)和SHARDCAST(用于高效地将策略权重从训练节点广播到推理工作者)等新组件。除了基础设施组件,我们还对标准的GRPO训练方法和数据过滤技术进行了修改,这对于实现训练稳定性和确保我们的模型成功学习其训练目标至关重要,从而改进了32B参数范围内的最先进推理模型QwQ-32B。我们开源了INTELLECT-2以及我们所有的代码和数据,希望鼓励和促进去中心化训练领域的更多开放研究。
🔬 方法详解
问题定义:论文旨在解决大规模语言模型在推理能力训练中,对算力需求巨大且难以有效利用异构算力的问题。现有集中式训练方法面临着成本高昂、扩展性差、资源利用率低等痛点,难以充分发挥大规模算力的潜力。
核心思路:论文的核心思路是采用全球分布式强化学习的方式,将训练任务分解到大量异构的计算节点上,通过异步强化学习算法进行协同训练。这种方式可以充分利用全球范围内的闲置算力,降低训练成本,并提高训练效率。
技术框架:INTELLECT-2的整体架构包含训练节点和推理节点。训练节点负责策略更新,推理节点负责生成rollout数据。PRIME-RL框架是核心,包含TOPLOC用于验证rollout数据的可靠性,SHARDCAST用于高效广播策略权重。训练过程采用异步强化学习,训练节点定期从推理节点收集rollout数据,更新策略,并将更新后的策略广播给推理节点。
关键创新:该论文的关键创新在于构建了一个完全去中心化的强化学习训练框架,实现了在全球范围内利用异构算力进行大规模语言模型训练。TOPLOC和SHARDCAST是支撑这一框架的关键技术,分别解决了rollout数据验证和策略权重广播的难题。与现有方法的本质区别在于,INTELLECT-2无需中心化的协调节点,所有节点都是对等的,从而实现了更高的可扩展性和鲁棒性。
关键设计:论文对标准的GRPO训练方法进行了修改,并采用了数据过滤技术,以确保训练的稳定性。具体的技术细节包括:未知。损失函数和网络结构的具体细节在论文中没有详细描述,需要进一步研究代码和数据。
🖼️ 关键图片
📊 实验亮点
INTELLECT-2在32B参数范围内实现了超越现有最先进推理模型QwQ-32B的性能。具体的性能数据和提升幅度在摘要中没有明确给出,需要在论文正文中查找。开源的代码和数据也为其他研究者提供了宝贵的资源。
🎯 应用场景
INTELLECT-2的研究成果可应用于各种需要大规模语言模型进行推理的场景,例如智能客服、自动问答、机器翻译、代码生成等。通过利用全球分布式算力,可以降低训练成本,加速模型迭代,并提高模型的性能和泛化能力。该研究也为去中心化人工智能的发展提供了新的思路和技术方案。
📄 摘要(原文)
We introduce INTELLECT-2, the first globally distributed reinforcement learning (RL) training run of a 32 billion parameter language model. Unlike traditional centralized training efforts, INTELLECT-2 trains a reasoning model using fully asynchronous RL across a dynamic, heterogeneous swarm of permissionless compute contributors. To enable a training run with this unique infrastructure, we built various components from scratch: we introduce PRIME-RL, our training framework purpose-built for distributed asynchronous reinforcement learning, based on top of novel components such as TOPLOC, which verifies rollouts from untrusted inference workers, and SHARDCAST, which efficiently broadcasts policy weights from training nodes to inference workers. Beyond infrastructure components, we propose modifications to the standard GRPO training recipe and data filtering techniques that were crucial to achieve training stability and ensure that our model successfully learned its training objective, thus improving upon QwQ-32B, the state of the art reasoning model in the 32B parameter range. We open-source INTELLECT-2 along with all of our code and data, hoping to encourage and enable more open research in the field of decentralized training.