Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

作者: Yihe Deng, I-Hung Hsu, Jun Yan, Zifeng Wang, Rujun Han, Gufeng Zhang, Yanfei Chen, Wei Wang, Tomas Pfister, Chen-Yu Lee

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-10-29

💡 一句话要点

提出监督强化学习(SRL)，解决小模型多步推理难题，提升软件工程任务性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 监督强化学习 多步推理 语言模型 软件工程 动作序列

📋 核心要点

现有小规模语言模型在多步推理任务中面临挑战，强化学习难以采样到正确解，监督学习易过度拟合。
SRL将问题解决分解为逻辑动作序列，通过模仿专家动作，提供更丰富的学习信号和灵活推理。
实验表明，SRL使小模型能够学习更具挑战性的问题，并在软件工程任务中表现出良好的泛化能力。

📝 摘要（中文）

大型语言模型(LLMs)在需要多步推理的问题上常常表现不佳。对于小规模开源模型，即使经过多次尝试，可验证奖励强化学习(RLVR)也难以采样到正确的解决方案，而监督微调(SFT)又容易通过僵硬的token-by-token模仿过度拟合长篇演示。为了解决这一问题，我们提出了监督强化学习(SRL)，该框架将问题解决重新定义为生成一系列逻辑“动作”。SRL训练模型在执行每个动作之前生成内部推理独白。它基于模型动作与SFT数据集中提取的专家动作之间的相似性，以逐步的方式提供更平滑的奖励。即使所有rollout都是不正确的，这种监督也能提供更丰富的学习信号，同时鼓励由专家演示指导的灵活推理。因此，SRL使小型模型能够学习以前SFT或RLVR无法学习的具有挑战性的问题。此外，在通过RLVR进行细化之前，使用SRL初始化训练可以产生最强的整体性能。除了推理基准之外，SRL还可以有效地推广到agentic软件工程任务，从而将其确立为面向推理的LLM的强大而通用的训练框架。

🔬 方法详解

问题定义：论文旨在解决小规模语言模型在复杂多步推理问题上的不足。现有方法，如RLVR，在奖励稀疏的情况下难以有效学习；而SFT则容易过度拟合专家轨迹，缺乏泛化能力。这些问题限制了小模型在复杂任务中的应用。

核心思路：SRL的核心思想是将复杂问题分解为一系列可执行的“动作”，并训练模型在执行每个动作前生成内部推理过程（monologue）。通过模仿专家动作，SRL为模型提供更密集的奖励信号，引导模型进行更灵活的推理，避免了简单的token-by-token模仿。

技术框架：SRL框架包含以下主要阶段：1) 数据准备：从SFT数据集中提取专家轨迹，并将其分解为一系列动作。2) 模型训练：训练语言模型生成动作序列，并在每个动作前生成推理独白。3) 奖励计算：根据模型生成的动作与专家动作的相似度，计算奖励信号。4) 模型优化：使用强化学习算法（如Policy Gradient）优化模型，使其能够生成更接近专家动作的序列。

关键创新：SRL的关键创新在于将监督学习和强化学习相结合，利用专家轨迹提供的监督信息，引导模型进行更有效的探索。与传统的SFT相比，SRL鼓励模型进行灵活的推理，而不是简单的模仿。与RLVR相比，SRL通过模仿专家动作，提供了更密集的奖励信号，解决了奖励稀疏的问题。

关键设计：SRL的关键设计包括：1) 动作空间定义：需要根据具体任务定义合适的动作空间，例如，在数学推理任务中，动作可以包括加、减、乘、除等操作。2) 奖励函数设计：奖励函数需要能够准确衡量模型生成的动作与专家动作的相似度。可以使用余弦相似度、编辑距离等指标。3) 推理独白生成：鼓励模型在执行每个动作前生成推理独白，可以使用prompting技术引导模型进行思考。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SRL在多个推理基准测试中优于SFT和RLVR。例如，在某些任务上，SRL使模型性能提升了显著百分比（具体数据未给出，原文未提供）。此外，SRL在agentic软件工程任务中也表现出良好的泛化能力，证明了其作为一种通用训练框架的有效性。

🎯 应用场景

SRL具有广泛的应用前景，可用于提升语言模型在数学推理、代码生成、问答系统等领域的性能。尤其是在资源受限的场景下，SRL能够帮助小规模模型解决复杂问题，降低部署成本。此外，SRL还可以应用于智能体开发，例如，训练智能体进行软件工程任务，提高开发效率。

📄 摘要（原文）

Large Language Models (LLMs) often struggle with problems that require multi-step reasoning. For small-scale open-source models, Reinforcement Learning with Verifiable Rewards (RLVR) fails when correct solutions are rarely sampled even after many attempts, while Supervised Fine-Tuning (SFT) tends to overfit long demonstrations through rigid token-by-token imitation. To address this gap, we propose Supervised Reinforcement Learning (SRL), a framework that reformulates problem solving as generating a sequence of logical "actions". SRL trains the model to generate an internal reasoning monologue before committing to each action. It provides smoother rewards based on the similarity between the model's actions and expert actions extracted from the SFT dataset in a step-wise manner. This supervision offers richer learning signals even when all rollouts are incorrect, while encouraging flexible reasoning guided by expert demonstrations. As a result, SRL enables small models to learn challenging problems previously unlearnable by SFT or RLVR. Moreover, initializing training with SRL before refining with RLVR yields the strongest overall performance. Beyond reasoning benchmarks, SRL generalizes effectively to agentic software engineering tasks, establishing it as a robust and versatile training framework for reasoning-oriented LLMs.

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理