LoopRPT: Reinforcement Pre-Training for Looped Language Models

📄 arXiv: 2603.19714v1 📥 PDF

作者: Guo Tang, Shixin Jiang, Heng Chang, Nuo Chen, Yuhan Li, Huiming Fan, Jia Li, Ming Liu, Bing Qin

分类: cs.CL

发布日期: 2026-03-20


💡 一句话要点

提出LoopRPT,用于循环语言模型的强化预训练,提升隐式推理效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 循环语言模型 强化预训练 隐式推理 表示学习 Ouro架构

📋 核心要点

  1. 现有强化学习方法与循环语言模型结构不匹配,难以优化其隐式推理过程。
  2. LoopRPT将token预测视为推理任务,通过强化学习直接塑造中间隐变量表示。
  3. 实验表明LoopRPT能有效提升循环语言模型的推理效率和准确率,尤其是在困难token上。

📝 摘要(中文)

循环语言模型(LoopLMs)通过迭代的隐变量计算来改进内部表示,为显式的思维链(CoT)推理提供了一种有前景的替代方案。然而,现有的强化学习(RL)范式主要针对输出token,与循环架构(其推理是隐式展开的)存在结构上的不匹配。本文提出了LoopRPT,一个为LoopLMs量身定制的强化预训练框架。通过将下一个token预测重新定义为下一个token推理任务,LoopRPT使用EMA教师参考和带噪声的隐变量rollout,直接将强化信号分配给隐变量步骤。这种公式使得RL能够直接塑造中间表示,将有效的推理压缩到更少的迭代中。我们在多个模型规模上,在Ouro架构上实例化LoopRPT。结果表明,LoopRPT持续提高每步表示质量,在准确率-计算权衡方面实现了帕累托优势。值得注意的是,在困难token上的显著收益表明,LoopRPT增强了早期推理,而不仅仅是鼓励过早退出。我们的研究结果表明,强化预训练是学习LoopLMs中有效隐式推理的一种有效范式。

🔬 方法详解

问题定义:循环语言模型(LoopLMs)通过迭代计算隐变量进行推理,但现有强化学习方法主要针对输出token优化,无法有效指导LoopLMs内部隐式推理过程,导致模型效率低下,难以处理复杂任务。现有方法无法直接优化中间隐变量表示,导致推理过程冗余,计算成本高昂。

核心思路:LoopRPT的核心思想是将下一个token的预测任务重新定义为下一个token的推理任务,从而能够将强化学习的信号直接作用于循环语言模型的中间隐变量表示。通过这种方式,可以引导模型学习更有效的隐式推理策略,减少迭代次数,提高推理效率。该方法旨在压缩有效的推理过程到更少的迭代步骤中。

技术框架:LoopRPT框架包含以下几个主要组成部分:1) 循环语言模型(LoopLM),作为基础模型架构;2) 强化学习模块,负责生成强化信号并优化模型;3) EMA教师模型,用于提供稳定的目标值,减少训练过程中的方差;4) 带噪声的隐变量rollout,用于探索不同的隐变量状态,并评估其对最终预测的影响。整体流程是:输入文本,LoopLM迭代计算隐变量,强化学习模块根据EMA教师模型和带噪声的隐变量rollout生成奖励信号,并利用该信号优化LoopLM的参数。

关键创新:LoopRPT的关键创新在于将强化学习应用于循环语言模型的中间隐变量表示,而不是仅仅优化输出token。这种方法能够更直接地控制模型的推理过程,引导模型学习更有效的隐式推理策略。与现有方法的本质区别在于,LoopRPT能够直接塑造中间表示,而现有方法只能间接影响中间表示。

关键设计:LoopRPT的关键设计包括:1) 使用EMA教师模型来提供稳定的目标值,减少训练过程中的方差;2) 使用带噪声的隐变量rollout来探索不同的隐变量状态,并评估其对最终预测的影响;3) 设计合适的奖励函数,以鼓励模型学习更有效的隐式推理策略。具体的损失函数设计未知,但应包含强化学习中的策略梯度损失和值函数损失。

📊 实验亮点

实验结果表明,LoopRPT在多个模型规模上,在Ouro架构上持续提高每步表示质量,在准确率-计算权衡方面实现了帕累托优势。在困难token上的显著收益表明,LoopRPT增强了早期推理,而不仅仅是鼓励过早退出。具体性能提升数据未知。

🎯 应用场景

LoopRPT可应用于各种需要高效推理的自然语言处理任务,例如机器翻译、文本摘要、问答系统等。该方法能够提升循环语言模型的推理效率,降低计算成本,使其更适用于资源受限的场景。未来,LoopRPT有望推动循环语言模型在移动设备、嵌入式系统等领域的应用。

📄 摘要(原文)

Looped language models (LoopLMs) perform iterative latent computation to refine internal representations, offering a promising alternative to explicit chain-of-thought (CoT) reasoning. However, existing reinforcement learning (RL) paradigms primarily target output tokens, creating a structural mismatch with looped architectures whose reasoning unfolds implicitly. In this work, we propose LoopRPT, a reinforcement pre-training framework tailored for LoopLMs. By reframing next-token prediction as a next-token reasoning task, LoopRPT assigns reinforcement signals directly to latent steps using an EMA teacher reference and noisy latent rollouts. This formulation enables RL to directly shape intermediate representations, compressing effective reasoning into fewer iterations. We instantiate LoopRPT on the Ouro architecture across multiple model scales. Results demonstrate that LoopRPT consistently improves per-step representation quality, achieving Pareto dominance in accuracy-computation trade-offs. Notably, significant gains on hard tokens indicate that LoopRPT enhances early-stage reasoning rather than merely encouraging premature exits. Our findings highlight reinforcement pre-training as a principled paradigm for learning efficient latent reasoning in LoopLMs.