Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

作者: Yihe Deng, I-Hung Hsu, Jun Yan, Zifeng Wang, Rujun Han, Gufeng Zhang, Yanfei Chen, Wei Wang, Tomas Pfister, Chen-Yu Lee

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-02-28

💡 一句话要点

提出监督强化学习(SRL)，解决小模型多步推理难题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 监督强化学习 多步推理 语言模型 奖励塑造 专家轨迹

📋 核心要点

现有小规模语言模型在多步推理任务中面临挑战，强化学习难以采样到正确解，监督学习易过拟合。
SRL框架将问题解决分解为逻辑动作序列，通过监督模型生成推理独白，提供更丰富的学习信号。
实验表明，SRL使小模型能够学习更具挑战性的问题，且SRL初始化训练后用RLVR细化效果最佳。

📝 摘要（中文）

大型语言模型(LLMs)在需要多步推理的问题上常常表现不佳。对于小规模开源模型，即使经过多次尝试，可验证奖励的强化学习(RLVR)也难以奏效，因为很难采样到正确的解决方案；而监督微调(SFT)又容易通过刚性的逐token模仿来过度拟合长篇演示。为了解决这一问题，我们提出了监督强化学习(SRL)框架，它将问题解决重新定义为生成一系列逻辑“动作”。SRL训练模型在执行每个动作之前生成内部推理独白。它基于模型动作与从SFT数据集中提取的专家动作之间的相似性，以逐步的方式提供更平滑的奖励。即使所有rollout都是不正确的，这种监督也能提供更丰富的学习信号，同时鼓励由专家演示指导的灵活推理。因此，SRL使小型模型能够学习以前SFT或RLVR无法学习的具有挑战性的问题。此外，在用RLVR细化之前，用SRL初始化训练可以产生最强的整体性能。除了推理基准之外，SRL还可以有效地推广到代理软件工程任务，从而确立了其作为面向推理的LLM的强大而通用的训练框架。

🔬 方法详解

问题定义：论文旨在解决小规模语言模型在复杂多步推理任务中的学习难题。现有方法，如RLVR，在奖励稀疏的情况下难以有效探索；而SFT则容易过度拟合专家轨迹，缺乏泛化能力。因此，如何让小模型在专家演示的指导下，学习到灵活且有效的推理能力，是本文要解决的核心问题。

核心思路：论文的核心思路是将复杂的问题分解为一系列可执行的“动作”，并训练模型在执行每个动作前生成一段内部的“推理独白”。通过监督模型生成的动作与专家动作的相似度，提供更密集的奖励信号，从而引导模型学习正确的推理路径。这种方法既利用了专家演示的指导作用，又避免了简单的token-by-token模仿，鼓励模型进行更灵活的推理。

技术框架：SRL框架主要包含以下几个阶段：1) 数据准备：从SFT数据集中提取专家轨迹，并将其分解为一系列动作。2) 模型训练：训练语言模型生成动作序列，并在每个动作前生成推理独白。3) 奖励计算：根据模型生成的动作与专家动作的相似度，计算奖励信号。4) 策略优化：使用强化学习算法（如PPO）优化模型策略，使其能够生成更接近专家动作的序列。

关键创新：SRL的关键创新在于将监督学习和强化学习相结合，通过监督模型生成的动作序列，提供更密集的奖励信号。与传统的RLVR方法相比，SRL即使在所有rollout都是错误的情况下，也能提供有效的学习信号。与SFT相比，SRL鼓励模型进行更灵活的推理，而不是简单地模仿专家轨迹。

关键设计：SRL的关键设计包括：1) 动作定义：如何将复杂的问题分解为一系列可执行的动作，需要根据具体任务进行设计。2) 相似度度量：如何衡量模型生成的动作与专家动作之间的相似度，可以使用文本相似度度量方法，如BLEU或ROUGE。3) 奖励函数：如何设计奖励函数，以鼓励模型生成更接近专家动作的序列，可以根据相似度度量结果进行设计。4) 推理独白：推理独白的生成方式，可以使用prompt工程或者直接训练模型生成。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SRL在多个推理基准测试中取得了显著的性能提升。例如，在某些任务上，SRL使小模型能够学习到以前SFT或RLVR无法学习的问题。此外，使用SRL进行初始化训练，然后再使用RLVR进行细化，可以获得最佳的整体性能。SRL还成功应用于代理软件工程任务，证明了其作为面向推理的LLM训练框架的通用性和有效性。

🎯 应用场景

SRL框架具有广泛的应用前景，可用于训练各种需要多步推理能力的语言模型，例如：智能客服、代码生成、软件工程自动化等。通过SRL，可以提升小规模语言模型在复杂任务上的性能，降低模型训练成本，并促进语言模型在实际应用中的普及。

📄 摘要（原文）

Large Language Models (LLMs) often struggle with problems that require multi-step reasoning. For small-scale open-source models, Reinforcement Learning with Verifiable Rewards (RLVR) fails when correct solutions are rarely sampled even after many attempts, while Supervised Fine-Tuning (SFT) tends to overfit long demonstrations through rigid token-by-token imitation. To address this gap, we propose Supervised Reinforcement Learning (SRL), a framework that reformulates problem solving as generating a sequence of logical "actions". SRL trains the model to generate an internal reasoning monologue before committing to each action. It provides smoother rewards based on the similarity between the model's actions and expert actions extracted from the SFT dataset in a step-wise manner. This supervision offers richer learning signals even when all rollouts are incorrect, while encouraging flexible reasoning guided by expert demonstrations. As a result, SRL enables small models to learn challenging problems previously unlearnable by SFT or RLVR. Moreover, initializing training with SRL before refining with RLVR yields the strongest overall performance. Beyond reasoning benchmarks, SRL generalizes effectively to agentic software engineering tasks, establishing it as a robust and versatile training framework for reasoning-oriented LLMs.

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理