Combining On-Policy Optimization and Distillation for Long-Context Reasoning in Large Language Models

📄 arXiv: 2605.12227v1 📥 PDF

作者: Miguel Moura Ramos, Duarte M. Alves, André F. T. Martins

分类: cs.CL

发布日期: 2026-05-12


💡 一句话要点

提出dGRPO方法,结合On-Policy优化与知识蒸馏,提升大语言模型长文本推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文本推理 On-Policy优化 知识蒸馏 强化学习 语言模型 策略优化 LongBlocks数据集

📋 核心要点

  1. 现有长文本LLM训练方法,如SFT和KD,易受暴露偏差影响,且难以从自身错误中恢复。
  2. dGRPO结合GRPO和OPD,利用教师模型的密集指导增强GRPO,实现更稳定的长文本推理。
  3. 实验表明,dGRPO在长文本推理任务上表现更优,同时保持了模型在短文本上的能力。

📝 摘要(中文)

为了使大型语言模型(LLMs)适应长文本任务,需要进行后训练,以保证模型在数千个token上保持准确性和连贯性。现有方法存在局限性:1) 监督微调(SFT)和知识蒸馏(KD)等Off-Policy方法存在暴露偏差,且在长序列上难以从模型自身产生的错误中恢复;2) 群体相对策略优化(GRPO)等On-Policy强化学习方法能更好地将训练与模型生成状态对齐,但由于奖励稀疏,导致训练不稳定且样本效率低;3) On-Policy蒸馏(OPD)提供密集的token级别指导,但不能直接优化任意奖励信号。本文提出Distilled Group Relative Policy Optimization (dGRPO),一种用于长文本推理的方法,通过OPD利用更强的教师模型提供的密集指导来增强GRPO。我们还引入了LongBlocks,一个合成的长文本数据集,涵盖多跳推理、上下文理解和长文本生成。我们进行了广泛的实验和消融研究,比较了Off-Policy训练、稀疏奖励GRPO和我们的组合方法,从而改进了长文本对齐的方案。结果表明,在单一目标中结合基于结果的策略优化和知识蒸馏,可以为长文本推理提供更稳定有效的路径,同时保持短文本能力。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在长文本推理任务中表现不佳的问题。现有方法,如监督微调(SFT)和知识蒸馏(KD),是off-policy方法,存在暴露偏差,即模型在训练时从未遇到过自己生成的错误,导致在长文本生成过程中容易累积错误。而基于强化学习的群体相对策略优化(GRPO)虽然是on-policy方法,但由于奖励稀疏,训练不稳定且样本效率低。

核心思路:论文的核心思路是将on-policy优化和知识蒸馏相结合。具体来说,就是利用on-policy蒸馏(OPD)从一个更强的教师模型中获取密集的token级别指导,以此来增强群体相对策略优化(GRPO)。这样既能利用on-policy方法的优势,使训练过程与模型生成的状态更对齐,又能通过知识蒸馏获得更稳定的训练信号。

技术框架:dGRPO方法的技术框架主要包含以下几个部分:首先,使用GRPO作为基础的强化学习框架,用于优化模型的策略。然后,引入OPD,利用教师模型提供的token级别的概率分布作为指导信号,对学生模型进行蒸馏。最后,将GRPO的奖励信号和OPD的蒸馏损失结合起来,形成一个统一的优化目标。

关键创新:该方法最重要的创新点在于将稀疏奖励的强化学习(GRPO)与密集指导的知识蒸馏(OPD)结合起来。GRPO关注最终结果,而OPD关注每一步的生成过程,二者互补,能够更有效地训练长文本推理模型。与单独使用GRPO相比,dGRPO的训练更加稳定,样本效率更高。

关键设计:dGRPO的关键设计包括:1) 使用KL散度作为OPD的蒸馏损失函数,衡量学生模型和教师模型输出概率分布的差异。2) 将GRPO的奖励信号和OPD的蒸馏损失进行加权求和,形成最终的优化目标。权重的选择需要仔细调整,以平衡两种训练信号的重要性。3) 引入LongBlocks数据集,该数据集包含多跳推理、上下文理解和长文本生成等多种任务,用于评估dGRPO的性能。

📊 实验亮点

实验结果表明,dGRPO方法在LongBlocks数据集上取得了显著的性能提升。与单独使用GRPO相比,dGRPO在多跳推理、上下文理解和长文本生成等任务上均有明显改善。此外,dGRPO还能够保持模型在短文本上的能力,避免了长文本训练对短文本性能的负面影响。

🎯 应用场景

该研究成果可应用于需要长文本推理能力的各种场景,例如:自动问答系统、长篇小说续写、代码生成、法律文档分析等。通过提升模型在长文本上的推理能力,可以提高这些应用场景的智能化水平和用户体验,具有重要的实际应用价值和商业前景。

📄 摘要(原文)

Adapting large language models (LLMs) to long-context tasks requires post-training methods that remain accurate and coherent over thousands of tokens. Existing approaches are limited in several ways: 1) off-policy methods such as supervised fine-tuning (SFT) and knowledge distillation (KD) suffer from exposure bias and limited recovery from model-generated errors over long horizons; 2) on-policy reinforcement learning methods such as Group Relative Policy Optimization (GRPO) better align training with model-generated states, but are unstable and sample-inefficient due to sparse rewards; 3) on-policy distillation (OPD) provides dense token-level guidance, but does not directly optimize arbitrary reward signals. In this paper, we propose Distilled Group Relative Policy Optimization (dGRPO), a method for long-context reasoning that augments GRPO with dense guidance from a stronger teacher via OPD. We also introduce LongBlocks, a synthetic long-context dataset spanning multi-hop reasoning, contextual grounding, and long-form generation. We conduct extensive experiments and ablations comparing off-policy training, sparse-reward GRPO, and our combined approach, leading to an improved recipe for long-context alignment. Overall, our results show that combining outcome-based policy optimization with knowledge distillation in a single objective provides a more stable and effective path to long-context reasoning, while preserving short-context capabilities.