Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model

作者: Ling Team, Anqi Shen, Baihui Li, Bin Hu, Bin Jing, Cai Chen, Chao Huang, Chao Zhang, Chaokun Yang, Cheng Lin, Chengyao Wen, Congqi Li, Deng Zhao, Dingbo Yuan, Donghai You, Fagui Mao, Fanzhuang Meng, Feng Xu, Guojie Li, Guowei Wang, Hao Dai, Haonan Zheng, Hong Liu, Jia Guo, Jiaming Liu, Jian Liu, Jianhao Fu, Jiannan Shi, Jianwen Wang, Jianxin Lai, Jin Yang, Jun Mei, Jun Zhou, Junbo Zhao, Junping Zhao, Kuan Xu, Le Su, Lei Chen, Li Tang, Liang Jiang, Liangcheng Fu, Lianhao Xu, Linfeng Shi, Lisha Liao, Longfei Zheng, Meng Li, Mingchun Chen, Qi Zuo, Qiang Cheng, Qianggang Cao, Qitao Shi, Quanrui Guo, Senlin Zhu, Shaofei Wang, Shaomian Zheng, Shuaicheng Li, Shuwei Gu, Siba Chen, Tao Wu, Tao Zhang, Tianyu Zhang, Tianyu Zhou, Tiwei Bie, Tongkai Yang, Wang Hong, Wang Ren, Weihua Chen, Wenbo Yu, Wengang Zheng, Xiangchun Wang, Xiaodong Yan, Xiaopei Wan, Xin Zhao, Xinyu Kong, Xinyu Tang, Xudong Han, Xudong Wang, Xuemin Yang, Xueyu Hu, Yalin Zhang, Yan Sun, Yicheng Shan, Yilong Wang, Yingying Xu, Yongkang Liu, Yongzhen Guo, Yuanyuan Wang, Yuchen Yan, Yuefan Wang, Yuhong Guo, Zehuan Li, Zhankai Xu, Zhe Li, Zhenduo Zhang, Zhengke Gui, Zhenxuan Pan, Zhenyu Huang, Zhenzhong Lan, Zhiqiang Ding, Zhiqiang Zhang, Zhixun Li, Zhizhen Liu, Zihao Wang, Zujie Wen

分类: cs.CL, cs.AI

发布日期: 2025-10-21 (更新: 2025-10-25)

备注: Technical Report

💡 一句话要点

提出Ring-1T：一个具有万亿参数的开源思维模型，解决训练和推理不一致等挑战。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱五：交互与反应 (Interaction & Reaction)

关键词: 万亿参数模型 强化学习 思维模型 训练推理一致性 资源优化 高性能框架 开源模型 数学推理

📋 核心要点

现有万亿参数规模的思维模型训练面临训练-推理不一致、rollout处理效率低和强化学习系统瓶颈等挑战。
论文提出IcePop、C3PO++和ASystem三项创新技术，分别解决训练稳定性、资源利用率和系统瓶颈问题。
Ring-1T在多个基准测试中取得突破性成果，并在IMO-2025上达到银牌水平，展示了卓越的推理能力。

📝 摘要（中文）

本文介绍了Ring-1T，这是首个开源的、具有万亿参数的最先进思维模型。它拥有1万亿个总参数，并且每个token激活约500亿个参数。在万亿参数规模下训练此类模型带来了前所未有的挑战，包括训练-推理不一致、rollout处理效率低下以及强化学习系统中的瓶颈。为了解决这些问题，我们率先提出了三项相互关联的创新：(1) IcePop通过token级别的差异掩蔽和裁剪来稳定强化学习训练，从而解决训练-推理不匹配导致的不稳定性；(2) C3PO++通过动态划分token预算下的长rollout来提高资源利用率，从而获得高时间效率；(3) ASystem是一个高性能强化学习框架，旨在克服阻碍万亿参数模型训练的系统性瓶颈。Ring-1T在关键基准测试中取得了突破性成果：AIME-2025上达到93.4，HMMT-2025上达到86.72，CodeForces上达到2088，ARC-AGI-1上达到55.94。值得注意的是，它在IMO-2025上获得了银牌水平的成绩，突显了其卓越的推理能力。通过向社区发布完整的1T参数MoE模型，我们为研究社区提供了直接访问前沿推理能力的机会。这一贡献标志着大规模推理智能民主化的一个重要里程碑，并为开源模型性能建立了新的基线。

🔬 方法详解

问题定义：论文旨在解决训练万亿参数规模思维模型时遇到的挑战，包括训练和推理过程中的不一致性，导致训练不稳定；长rollout处理效率低下，资源利用率不高；以及强化学习系统本身的瓶颈，限制了模型训练的规模和速度。现有方法难以有效解决这些问题，导致训练过程不稳定，资源消耗大，模型性能提升受限。

核心思路：论文的核心思路是通过三个相互关联的创新来解决上述问题。首先，IcePop通过token级别的差异掩蔽和裁剪，减少训练和推理之间的差异，从而稳定训练过程。其次，C3PO++通过动态划分长rollout，优化资源分配，提高rollout处理效率。最后，ASystem通过优化强化学习系统的架构和实现，消除系统瓶颈，提高训练速度和规模。

技术框架：Ring-1T的训练框架主要包含三个核心模块：IcePop用于稳定训练，C3PO++用于优化rollout处理，ASystem作为底层支撑平台。训练流程大致如下：首先，使用ASystem进行大规模的rollout生成；然后，C3PO++对rollout进行动态划分和处理，以提高资源利用率；接着，IcePop对训练数据进行处理，减少训练和推理之间的差异；最后，使用强化学习算法对模型进行训练。

关键创新：论文最重要的技术创新点在于三者的结合：IcePop稳定训练，C3PO++优化资源利用，ASystem提供高性能支撑。IcePop通过token级别的差异处理，更精细地控制了训练过程，避免了全局裁剪可能带来的信息损失。C3PO++的动态划分策略能够根据rollout的实际情况进行资源分配，避免了静态划分的局限性。ASystem则从系统层面解决了大规模训练的瓶颈。

关键设计：IcePop的关键设计在于token级别的差异掩蔽和裁剪策略，具体实现方式未知。C3PO++的关键设计在于动态划分rollout的算法，需要根据token预算和rollout长度进行优化。ASystem的关键设计在于高性能的分布式架构和通信机制，需要充分利用硬件资源，减少通信开销。损失函数和网络结构等细节信息未知。

🖼️ 关键图片

📊 实验亮点

Ring-1T在多个基准测试中取得了显著成果。在AIME-2025上达到93.4，HMMT-2025上达到86.72，CodeForces上达到2088，ARC-AGI-1上达到55.94。更值得注意的是，它在IMO-2025上获得了银牌水平的成绩，证明了其卓越的推理能力。这些结果表明，Ring-1T在推理能力方面超越了现有模型，达到了新的高度。

🎯 应用场景

Ring-1T具有广泛的应用前景，包括但不限于：自然语言处理、智能对话系统、代码生成、数学推理、游戏AI等。其强大的推理能力使其能够胜任复杂的任务，例如解决数学难题、生成高质量的代码、进行深入的对话等。该研究的开源发布将加速相关领域的发展，促进人工智能技术的普及和应用。

📄 摘要（原文）

We present Ring-1T, the first open-source, state-of-the-art thinking model with a trillion-scale parameter. It features 1 trillion total parameters and activates approximately 50 billion per token. Training such models at a trillion-parameter scale introduces unprecedented challenges, including train-inference misalignment, inefficiencies in rollout processing, and bottlenecks in the RL system. To address these, we pioneer three interconnected innovations: (1) IcePop stabilizes RL training via token-level discrepancy masking and clipping, resolving instability from training-inference mismatches; (2) C3PO++ improves resource utilization for long rollouts under a token budget by dynamically partitioning them, thereby obtaining high time efficiency; and (3) ASystem, a high-performance RL framework designed to overcome the systemic bottlenecks that impede trillion-parameter model training. Ring-1T delivers breakthrough results across critical benchmarks: 93.4 on AIME-2025, 86.72 on HMMT-2025, 2088 on CodeForces, and 55.94 on ARC-AGI-1. Notably, it attains a silver medal-level result on the IMO-2025, underscoring its exceptional reasoning capabilities. By releasing the complete 1T parameter MoE model to the community, we provide the research community with direct access to cutting-edge reasoning capabilities. This contribution marks a significant milestone in democratizing large-scale reasoning intelligence and establishes a new baseline for open-source model performance.

Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理