Well Begun, Half Done: Reinforcement Learning with Prefix Optimization for LLM Reasoning

📄 arXiv: 2512.15274v1 📥 PDF

作者: Yiliu Sun, Zicheng Zhao, Yang Wei, Yanfang Zhang, Chen Gong

分类: cs.CL, cs.AI

发布日期: 2025-12-17

备注: Accepted by AAAI 2026


💡 一句话要点

提出PPPO:通过前缀优化强化学习提升LLM的推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 推理能力 前缀优化 起始锁定效应

📋 核心要点

  1. 现有基于强化学习的LLM推理方法忽略了不同token对推理贡献的差异,导致训练效率低下。
  2. PPPO方法通过聚焦优化LLM推理过程中的前缀token,利用起始锁定效应,提升推理效果。
  3. PPPO采用渐进式前缀保留和连续累积奖励两种策略,实验表明其优于现有RLVR方法,显著提升准确率。

📝 摘要(中文)

本文提出了一种新的基于可验证奖励的强化学习方法,称为渐进式前缀token策略优化(PPPO),旨在提升大型语言模型(LLM)的推理能力。现有方法通常对所有生成的token进行训练,忽略了哪些token(例如,前缀token)对推理有实际贡献。这种统一的训练策略在优化低回报token上花费了大量精力,从而阻碍了高回报token的潜在改进,降低了整体训练效率。PPPO通过强调生成输出的前缀部分的重要性来解决这个问题。受到路径依赖理论的启发,论文发现LLM推理中存在“起始锁定效应”(BLE)。PPPO利用这一发现,将其优化目标集中在LLM的前缀推理过程上。这种有针对性的优化策略可以积极影响后续的推理过程,并最终提高最终结果。为了提高LLM高质量推理起始的学习效率,PPPO引入了两种训练策略:(a)渐进式前缀保留,通过在训练期间增加保留的前缀token的比例来形成渐进式学习过程;(b)连续累积奖励,通过为一个前缀token序列采样多个延续,并累积它们的分数作为奖励信号,来减轻奖励偏差。在各种推理任务上的大量实验结果表明,所提出的PPPO优于代表性的RLVR方法,仅使用26.17%的训练token,准确率就提高了18.02%。

🔬 方法详解

问题定义:现有基于可验证奖励的强化学习方法在训练LLM进行推理时,通常平等地对待所有生成的token,而忽略了不同token对最终推理结果的贡献程度。这种均匀的训练方式导致大量计算资源被浪费在对推理贡献较小的token的优化上,从而限制了对关键token(如前缀token)的优化,降低了整体训练效率。因此,如何高效地利用强化学习来提升LLM的推理能力是一个亟待解决的问题。

核心思路:PPPO的核心思路是借鉴人类思考中的“路径依赖”理论,并将其应用于LLM的推理过程。论文观察到LLM推理中存在“起始锁定效应”(Beginning Lock-in Effect, BLE),即推理过程的早期阶段(前缀token)对后续的推理轨迹具有显著的影响。因此,PPPO将优化重点放在LLM生成输出的前缀部分,通过优化前缀token的质量来引导LLM进行更有效的推理。

技术框架:PPPO的整体框架基于强化学习,主要包含以下几个阶段:1) 前缀选择:从输入问题中生成一个或多个候选的前缀token序列。2) 延续采样:对于每个前缀token序列,采样多个可能的延续token序列,形成完整的推理过程。3) 奖励计算:使用可验证奖励函数对每个完整的推理过程进行评估,得到相应的奖励值。4) 策略优化:根据奖励值,使用策略梯度算法(如PPO)更新LLM的策略,使其更倾向于生成高质量的前缀token序列。PPPO的关键在于其对前缀token的特殊处理,以及渐进式前缀保留和连续累积奖励两种训练策略。

关键创新:PPPO的主要创新点在于:1) 关注前缀优化:不同于以往的均匀训练策略,PPPO将优化重点放在对LLM推理过程至关重要的前缀token上。2) 渐进式前缀保留:通过逐步增加保留的前缀token的比例,引导LLM进行渐进式学习,使其能够更好地利用已有的推理知识。3) 连续累积奖励:通过对每个前缀token序列采样多个延续,并累积它们的分数作为奖励信号,减轻了奖励的偏差,提高了训练的稳定性。

关键设计:PPPO的关键设计包括:1) 渐进式前缀保留比例:该比例控制了在训练过程中保留的前缀token的数量,通常从一个较小的值开始,逐渐增加到1。2) 延续采样数量:每个前缀token序列采样的延续数量,用于计算连续累积奖励。3) 奖励函数:用于评估推理过程质量的奖励函数,可以是基于正确答案的二元奖励,也可以是更复杂的奖励函数,例如基于推理路径的奖励。4) 策略梯度算法:用于更新LLM策略的算法,通常选择PPO等稳定的算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PPPO在多个推理任务上显著优于现有的RLVR方法。例如,在某些任务上,PPPO仅使用26.17%的训练token,就实现了18.02%的准确率提升。这些结果表明,PPPO能够更有效地利用训练数据,提升LLM的推理能力。

🎯 应用场景

PPPO方法可以应用于各种需要LLM进行复杂推理的场景,例如数学问题求解、常识推理、代码生成等。通过提升LLM的推理能力,可以提高这些应用场景的性能和用户体验。此外,PPPO的训练策略也可以推广到其他序列生成任务中,例如文本摘要、机器翻译等,具有广泛的应用前景。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) significantly enhances the reasoning capability of Large Language Models (LLMs). Current RLVR approaches typically conduct training across all generated tokens, but neglect to explore which tokens (e.g., prefix tokens) actually contribute to reasoning. This uniform training strategy spends substantial effort on optimizing low-return tokens, which in turn impedes the potential improvement from high-return tokens and reduces overall training effectiveness. To address this issue, we propose a novel RLVR approach called Progressive Prefix-token Policy Optimization (PPPO), which highlights the significance of the prefix segment of generated outputs. Specifically, inspired by the well-established human thinking theory of Path Dependence, where early-stage thoughts substantially constrain subsequent thinking trajectory, we identify an analogous phenomenon in LLM reasoning termed Beginning Lock-in Effect (BLE). PPPO leverages this finding by focusing its optimization objective on the prefix reasoning process of LLMs. This targeted optimization strategy can positively influence subsequent reasoning processes, and ultimately improve final results. To improve the learning effectiveness of LLMs on how to start reasoning with high quality, PPPO introduces two training strategies: (a) Progressive Prefix Retention, which shapes a progressive learning process by increasing the proportion of retained prefix tokens during training; (b) Continuation Accumulated Reward, which mitigates reward bias by sampling multiple continuations for one prefix token sequence, and accumulating their scores as the reward signal. Extensive experimental results on various reasoning tasks demonstrate that our proposed PPPO outperforms representative RLVR methods, with the accuracy improvements of 18.02% on only 26.17% training tokens.