REA-RL: Reflection-Aware Online Reinforcement Learning for Efficient Large Reasoning Models

📄 arXiv: 2505.19862v1 📥 PDF

作者: Hexuan Deng, Wenxiang Jiao, Xuebo Liu, Jun Rao, Min Zhang

分类: cs.CL, cs.LG

发布日期: 2025-05-26

备注: Work in Progress

🔗 代码/项目: GITHUB


💡 一句话要点

REA-RL:面向高效大型推理模型的反射感知在线强化学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 大型推理模型 在线强化学习 反射学习 推理效率 反思能力 奖励函数设计 模型优化

📋 核心要点

  1. 大型推理模型推理成本高昂,现有方法数据生成和过滤耗时,在线使用效率低。
  2. REA-RL引入小型反射模型进行并行采样和顺序修正,提升在线训练效率。
  3. REA-RL设计反射奖励,避免模型偏好短而不反思的响应,平衡性能与效率。

📝 摘要(中文)

大型推理模型(LRM)在复杂任务中表现出色,但常面临过度思考的挑战,导致推理成本显著增加。现有方法合成较短的推理响应供LRM学习,但由于耗时的数据生成和过滤过程,在线使用效率低下。同时,在线强化学习主要采用长度奖励来鼓励短推理响应,但往往会失去反思能力并损害性能。为了解决这些问题,我们提出了REA-RL,它引入了一个小型反射模型,用于在线训练中的高效扩展,提供并行采样和顺序修正。此外,设计了一种反射奖励,以进一步防止LRM偏爱短而不反思的响应。实验表明,这两种方法在保持或提高性能的同时,显著提高了推理效率。它们的结合在性能和效率之间取得了良好的平衡,在不影响性能的情况下,降低了35%的推理成本。进一步的分析表明,我们的方法通过保持难题的反思频率,同时适当地减少简单问题的反思频率,而不会失去反思能力,从而有效地工作。代码可在https://github.com/hexuandeng/REA-RL获取。

🔬 方法详解

问题定义:论文旨在解决大型推理模型(LRM)在复杂任务中推理成本过高的问题。现有方法,如知识蒸馏,通过让LRM学习较短的推理路径来降低成本,但这些方法依赖于离线数据生成和过滤,效率低下,不适用于在线场景。此外,直接使用在线强化学习,并以推理长度作为奖励,虽然可以缩短推理路径,但容易导致模型失去反思能力,损害性能。

核心思路:REA-RL的核心思路是利用一个小型反射模型来辅助大型推理模型的在线训练,从而在降低推理成本的同时,保持模型的反思能力。通过并行采样和顺序修正,提高训练效率。同时,引入反射奖励,引导模型在保证反思质量的前提下,缩短推理路径。

技术框架:REA-RL包含两个主要模块:大型推理模型(LRM)和小型反射模型。LRM负责生成推理结果,反射模型则用于评估LRM的推理过程是否具有反思性。训练过程包括以下步骤:1) LRM生成初始推理路径;2) 反射模型评估推理路径的反思性;3) 基于反射模型的评估结果,计算反射奖励;4) 使用强化学习算法(如PPO)更新LRM的策略。反射模型可以并行采样,顺序修正LRM的推理过程。

关键创新:REA-RL的关键创新在于:1) 引入小型反射模型,实现高效的在线训练,避免了离线数据生成和过滤的开销;2) 设计了反射奖励,鼓励模型在缩短推理路径的同时,保持反思能力。这种方法能够更好地平衡推理效率和性能。

关键设计:反射奖励的设计是关键。论文中,反射奖励基于反射模型的输出,用于衡量LRM推理过程的反思性。具体的计算方式未知,但其目标是鼓励LRM在解决难题时保持较高的反思频率,而在解决简单问题时适当降低反思频率,从而实现效率和性能的平衡。反射模型可能是一个小型Transformer模型,其输入是LRM的推理路径,输出是反思性的评估结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,REA-RL在保持或提高性能的同时,显著提高了推理效率。具体而言,REA-RL在不影响性能的情况下,降低了35%的推理成本。进一步的分析表明,REA-RL能够有效地保持难题的反思频率,同时适当地减少简单问题的反思频率,从而在效率和性能之间取得良好的平衡。这些结果表明REA-RL是一种有效的降低大型推理模型推理成本的方法。

🎯 应用场景

REA-RL可应用于各种需要大型推理模型的复杂任务,例如问答系统、对话生成、代码生成等。通过降低推理成本,可以提高这些系统的响应速度和用户体验。此外,该方法还可以用于训练更高效、更智能的AI助手,使其能够在资源有限的环境下执行复杂的推理任务。未来,REA-RL有望推动大型语言模型在移动设备和嵌入式系统上的应用。

📄 摘要(原文)

Large Reasoning Models (LRMs) demonstrate strong performance in complex tasks but often face the challenge of overthinking, leading to substantially high inference costs. Existing approaches synthesize shorter reasoning responses for LRMs to learn, but are inefficient for online usage due to the time-consuming data generation and filtering processes. Meanwhile, online reinforcement learning mainly adopts a length reward to encourage short reasoning responses, but tends to lose the reflection ability and harm the performance. To address these issues, we propose REA-RL, which introduces a small reflection model for efficient scaling in online training, offering both parallel sampling and sequential revision. Besides, a reflection reward is designed to further prevent LRMs from favoring short yet non-reflective responses. Experiments show that both methods maintain or enhance performance while significantly improving inference efficiency. Their combination achieves a good balance between performance and efficiency, reducing inference costs by 35% without compromising performance. Further analysis demonstrates that our methods are effective by maintaining reflection frequency for hard problems while appropriately reducing it for simpler ones without losing reflection ability. Codes are available at https://github.com/hexuandeng/REA-RL.