Combining On-Policy Optimization and Distillation for Long-Context Reasoning in Large Language Models

作者: Miguel Moura Ramos, Duarte M. Alves, André F. T. Martins

分类: cs.CL

发布日期: 2026-05-12

💡 一句话要点

提出dGRPO方法，结合On-Policy优化与知识蒸馏，提升大语言模型长文本推理能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长文本推理 On-Policy优化 知识蒸馏 强化学习 语言模型 策略优化 LongBlocks数据集

📋 核心要点

现有长文本LLM训练方法，如SFT和KD，易受暴露偏差影响，且难以从自身错误中恢复。
dGRPO结合GRPO和OPD，利用教师模型的密集指导增强GRPO，实现更稳定的长文本推理。
实验表明，dGRPO在长文本推理任务上表现更优，同时保持了模型在短文本上的能力。

📝 摘要（中文）

为了使大型语言模型(LLMs)适应长文本任务，需要进行后训练，以保证模型在数千个token上保持准确性和连贯性。现有方法存在局限性：1) 监督微调(SFT)和知识蒸馏(KD)等Off-Policy方法存在暴露偏差，且在长序列上难以从模型自身产生的错误中恢复；2) 群体相对策略优化(GRPO)等On-Policy强化学习方法能更好地将训练与模型生成状态对齐，但由于奖励稀疏，导致训练不稳定且样本效率低；3) On-Policy蒸馏(OPD)提供密集的token级别指导，但不能直接优化任意奖励信号。本文提出Distilled Group Relative Policy Optimization (dGRPO)，一种用于长文本推理的方法，通过OPD利用更强的教师模型提供的密集指导来增强GRPO。我们还引入了LongBlocks，一个合成的长文本数据集，涵盖多跳推理、上下文理解和长文本生成。我们进行了广泛的实验和消融研究，比较了Off-Policy训练、稀疏奖励GRPO和我们的组合方法，从而改进了长文本对齐的方案。结果表明，在单一目标中结合基于结果的策略优化和知识蒸馏，可以为长文本推理提供更稳定有效的路径，同时保持短文本能力。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在长文本推理任务中表现不佳的问题。现有方法，如监督微调（SFT）和知识蒸馏（KD），是off-policy方法，存在暴露偏差，即模型在训练时从未遇到过自己生成的错误，导致在长文本生成过程中容易累积错误。而基于强化学习的群体相对策略优化（GRPO）虽然是on-policy方法，但由于奖励稀疏，训练不稳定且样本效率低。

核心思路：论文的核心思路是将on-policy优化和知识蒸馏相结合。具体来说，就是利用on-policy蒸馏（OPD）从一个更强的教师模型中获取密集的token级别指导，以此来增强群体相对策略优化（GRPO）。这样既能利用on-policy方法的优势，使训练过程与模型生成的状态更对齐，又能通过知识蒸馏获得更稳定的训练信号。

技术框架：dGRPO方法的技术框架主要包含以下几个部分：首先，使用GRPO作为基础的强化学习框架，用于优化模型的策略。然后，引入OPD，利用教师模型提供的token级别的概率分布作为指导信号，对学生模型进行蒸馏。最后，将GRPO的奖励信号和OPD的蒸馏损失结合起来，形成一个统一的优化目标。

关键创新：该方法最重要的创新点在于将稀疏奖励的强化学习（GRPO）与密集指导的知识蒸馏（OPD）结合起来。GRPO关注最终结果，而OPD关注每一步的生成过程，二者互补，能够更有效地训练长文本推理模型。与单独使用GRPO相比，dGRPO的训练更加稳定，样本效率更高。

关键设计：dGRPO的关键设计包括：1) 使用KL散度作为OPD的蒸馏损失函数，衡量学生模型和教师模型输出概率分布的差异。2) 将GRPO的奖励信号和OPD的蒸馏损失进行加权求和，形成最终的优化目标。权重的选择需要仔细调整，以平衡两种训练信号的重要性。3) 引入LongBlocks数据集，该数据集包含多跳推理、上下文理解和长文本生成等多种任务，用于评估dGRPO的性能。

📊 实验亮点

实验结果表明，dGRPO方法在LongBlocks数据集上取得了显著的性能提升。与单独使用GRPO相比，dGRPO在多跳推理、上下文理解和长文本生成等任务上均有明显改善。此外，dGRPO还能够保持模型在短文本上的能力，避免了长文本训练对短文本性能的负面影响。

🎯 应用场景

该研究成果可应用于需要长文本推理能力的各种场景，例如：自动问答系统、长篇小说续写、代码生成、法律文档分析等。通过提升模型在长文本上的推理能力，可以提高这些应用场景的智能化水平和用户体验，具有重要的实际应用价值和商业前景。

📄 摘要（原文）

Adapting large language models (LLMs) to long-context tasks requires post-training methods that remain accurate and coherent over thousands of tokens. Existing approaches are limited in several ways: 1) off-policy methods such as supervised fine-tuning (SFT) and knowledge distillation (KD) suffer from exposure bias and limited recovery from model-generated errors over long horizons; 2) on-policy reinforcement learning methods such as Group Relative Policy Optimization (GRPO) better align training with model-generated states, but are unstable and sample-inefficient due to sparse rewards; 3) on-policy distillation (OPD) provides dense token-level guidance, but does not directly optimize arbitrary reward signals. In this paper, we propose Distilled Group Relative Policy Optimization (dGRPO), a method for long-context reasoning that augments GRPO with dense guidance from a stronger teacher via OPD. We also introduce LongBlocks, a synthetic long-context dataset spanning multi-hop reasoning, contextual grounding, and long-form generation. We conduct extensive experiments and ablations comparing off-policy training, sparse-reward GRPO, and our combined approach, leading to an improved recipe for long-context alignment. Overall, our results show that combining outcome-based policy optimization with knowledge distillation in a single objective provides a more stable and effective path to long-context reasoning, while preserving short-context capabilities.

Combining On-Policy Optimization and Distillation for Long-Context Reasoning in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理