SIRI: Scaling Iterative Reinforcement Learning with Interleaved Compression
作者: Haoming Wen, Yushi Bai, Juanzi Li, Jie Tang
分类: cs.LG, cs.CL
发布日期: 2025-09-29
备注: In submission
💡 一句话要点
SIRI:通过交错压缩迭代强化学习,提升大型推理模型的效率与准确性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 大型推理模型 模型压缩 推理效率 迭代训练 动态调整 rollout长度
📋 核心要点
- 大型推理模型存在重复思考模式,现有减少冗余token的方法通常会降低性能。
- SIRI通过交错压缩和扩展推理预算,动态调整rollout长度,平衡探索和效率。
- 实验表明,SIRI在提高性能的同时减少了token使用量,并达到了更高的准确率。
📝 摘要(中文)
本文提出了一种简单而有效的强化学习方法SIRI,即通过交错压缩迭代强化学习,用于大型推理模型(LRM),以实现更高效和准确的推理。现有研究表明,LRM中存在重复的思维模式,而减少这些模式通常会牺牲性能。本文表明,通过一种训练机制可以克服这种权衡,该机制通过动态调整训练期间的最大rollout长度,在压缩和扩展推理预算之间迭代交替。压缩阶段缩短rollout长度,迫使模型在有限的上下文中做出精确且有价值的决策,从而有效地减少冗余token并提高推理密度。扩展阶段则放宽长度限制,为模型在长时程环境中探索和规划提供空间。值得注意的是,我们发现,在每个压缩-扩展循环之后,即使模型的输出长度减少,其性能也会提高,从而稳步地将其推向性能-效率权衡的帕累托前沿。在DeepSeek-R1-Distill-Qwen-1.5B上训练,经过三次迭代后,SIRI-low在AIME24上的性能提高了43.2%,同时减少了46.9%的token使用量,而SIRI-high实现了与其他所有方法相比最高的准确率。我们的发现揭示了在训练期间周期性地振荡LRM的输出截断长度以动态平衡推理中的探索和效率的潜力,从而收敛到两者之间的最佳“甜蜜点”。我们的模型已公开。
🔬 方法详解
问题定义:论文旨在解决大型推理模型(LRM)中存在的推理效率问题,即模型在推理过程中会产生大量的冗余token,导致计算成本增加。现有方法试图减少冗余token,但往往会牺牲模型的推理性能,无法在效率和准确性之间取得平衡。
核心思路:SIRI的核心思路是通过迭代地压缩和扩展模型的推理预算,动态调整模型在推理过程中可以使用的最大rollout长度。压缩阶段迫使模型在有限的上下文中做出更精确的决策,减少冗余token;扩展阶段则允许模型探索更长的推理路径,提高模型的推理能力。通过交替进行压缩和扩展,SIRI能够使模型逐步逼近性能和效率之间的帕累托最优。
技术框架:SIRI的训练过程包含多个迭代轮次,每一轮包含压缩和扩展两个阶段。在压缩阶段,减小最大rollout长度,迫使模型在有限的步骤内完成推理。在扩展阶段,增大最大rollout长度,允许模型进行更充分的探索。每个阶段都使用强化学习算法对模型进行训练,目标是最大化奖励函数。
关键创新:SIRI的关键创新在于提出了交错压缩和扩展的训练策略,这种策略能够动态地平衡模型的探索和效率,避免了传统方法中性能和效率之间的trade-off。通过周期性地调整模型的输出截断长度,SIRI能够使模型逐步收敛到性能和效率之间的最佳平衡点。
关键设计:SIRI的关键设计包括:1) 动态调整最大rollout长度的策略,具体调整幅度需要根据任务和模型的特点进行调整;2) 强化学习算法的选择,可以使用常见的策略梯度算法或Q-learning算法;3) 奖励函数的设计,需要能够反映模型的推理准确性和效率。
🖼️ 关键图片
📊 实验亮点
SIRI在DeepSeek-R1-Distill-Qwen-1.5B模型上进行了实验,结果表明,经过三次迭代后,SIRI-low在AIME24数据集上的性能提高了43.2%,同时减少了46.9%的token使用量。SIRI-high实现了与其他所有方法相比最高的准确率。这些结果表明,SIRI能够有效地提高大型推理模型的效率和准确性。
🎯 应用场景
SIRI具有广泛的应用前景,可以应用于各种需要高效推理的大型语言模型任务中,例如问答系统、文本摘要、机器翻译等。通过提高模型的推理效率,SIRI可以降低计算成本,并使模型能够处理更复杂的推理任务。此外,SIRI还可以应用于资源受限的场景,例如移动设备或边缘计算环境,使这些设备也能够运行大型语言模型。
📄 摘要(原文)
We introduce SIRI, Scaling Iterative Reinforcement Learning with Interleaved Compression, a simple yet effective RL approach for Large Reasoning Models (LRMs) that enables more efficient and accurate reasoning. Existing studies have observed repetitive thinking patterns in LRMs, and attempts to reduce them often come at the cost of performance. In this paper, we show that this trade-off can be overcome through a training regime that iteratively alternates between compressing and expanding the reasoning budget, by dynamically adjusting the maximum rollout length during training. The compression phase cuts the rollout length, forcing the model to make precise and valuable decisions within a limited context, which effectively reduces redundant tokens and increases reasoning density. The expansion phase then relaxes the length limit, providing space for the model to explore and plan in long-horizon settings. Remarkably, we find that after each compression-expansion cycle, the model's performance improves even as its output length decreases, steadily pushing it closer to the Pareto frontier in the performance-efficiency trade-off. Training on DeepSeek-R1-Distill-Qwen-1.5B, SIRI-low improves performance on AIME24 by 43.2% while reducing token usage by 46.9% after three iterations, and SIRI-high achieves the highest accuracy compared to all other methods (Figure 1). Our findings shed light on the potential of periodically oscillating the LRM's output truncation length during training to dynamically balance exploration and efficiency in reasoning, converging towards an optimal "sweet spot" between the two. Our models are publicly available.