StaRPO: Stability-Augmented Reinforcement Policy Optimization

📄 arXiv: 2604.08905v1 📥 PDF

作者: Jinghan Zhang, Fengran Mo, Tharindu Cyril Weerasooriya, Ruimin Dai, Xiaoyan Han, Yanjie Fu, Dakuo Wang, Kunpeng Liu

分类: cs.AI, cs.LG

发布日期: 2026-04-10


💡 一句话要点

提出StaRPO,通过增强推理稳定性提升大型语言模型在复杂推理任务中的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 推理稳定性 自相关函数 路径效率 策略优化 过程感知 逻辑推理

📋 核心要点

  1. 现有强化学习方法在复杂推理任务中,仅依赖最终答案正确性作为反馈,忽略了推理过程中的逻辑结构。
  2. StaRPO通过引入自相关函数(ACF)和路径效率(PE)两个指标,显式地将推理稳定性纳入强化学习的优化目标。
  3. 实验表明,StaRPO在多个推理基准上优于现有方法,显著提升了最终答案的准确性和逻辑稳定性。

📝 摘要(中文)

强化学习(RL)在提升大型语言模型在复杂推理任务中的准确性方面非常有效。现有的RL策略优化框架依赖于最终答案的正确性作为反馈信号,很少捕捉推理过程的内部逻辑结构。因此,模型会生成流畅且语义相关的响应,但在逻辑上不一致、结构上不稳定或冗余。为此,我们提出了StaRPO,一种稳定性增强的强化学习框架,它将推理稳定性显式地纳入优化目标。我们的StaRPO将稳定性分解为两个可计算的轻量级指标:自相关函数(ACF)用于评估局部步骤间的连贯性,路径效率(PE)用于评估推理轨迹的全局目标导向性。这些稳定性奖励与任务奖励相结合,提供互补的、过程感知的反馈。我们通过展示ACF和PE奖励与两个骨干模型上的逻辑错误的相关性,验证了使用ACF和PE奖励的有效性。在四个推理基准上的实验表明,StaRPO始终优于比较基线,并且可以提高最终答案的准确性和逻辑稳定性。

🔬 方法详解

问题定义:现有基于强化学习的语言模型推理优化方法,主要依赖于最终答案的正确性作为奖励信号,忽略了推理过程的逻辑连贯性和目标导向性。这导致模型可能生成语义相关但逻辑不稳定的推理过程,最终影响答案的可靠性。现有方法缺乏对推理过程内部结构的有效建模和优化。

核心思路:StaRPO的核心思路是将推理过程的稳定性显式地纳入强化学习的优化目标中。通过引入两个轻量级的可计算指标:自相关函数(ACF)和路径效率(PE),分别衡量推理过程的局部连贯性和全局目标导向性。将这些稳定性奖励与任务奖励结合,为模型提供更全面、过程感知的反馈,从而引导模型生成更稳定、更可靠的推理轨迹。

技术框架:StaRPO框架主要包含以下几个步骤:1) 使用大型语言模型生成推理轨迹;2) 使用自相关函数(ACF)评估推理轨迹的局部连贯性;3) 使用路径效率(PE)评估推理轨迹的全局目标导向性;4) 将ACF和PE作为奖励信号与任务奖励结合;5) 使用强化学习算法(如PPO)优化策略,提升模型的推理稳定性和准确性。

关键创新:StaRPO的关键创新在于提出了将推理稳定性显式地纳入强化学习优化目标的方法。与现有方法仅关注最终答案的正确性不同,StaRPO通过ACF和PE两个指标,对推理过程的局部连贯性和全局目标导向性进行建模和优化。这种过程感知的优化方法能够更有效地引导模型生成逻辑稳定、目标明确的推理轨迹。

关键设计:ACF的计算方式是衡量相邻推理步骤之间的语义相似度,采用余弦相似度计算。PE的计算方式是衡量推理轨迹的长度与理想最短路径长度的比值。ACF和PE的奖励权重需要根据具体任务进行调整,以平衡推理稳定性和任务准确性。论文采用PPO算法进行策略优化,并对奖励函数进行了归一化处理,以提高训练的稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,StaRPO在四个推理基准上均优于现有基线方法。例如,在某个基准测试中,StaRPO将最终答案的准确率提高了5%以上,同时显著降低了逻辑错误的发生率。实验还验证了ACF和PE奖励与逻辑错误之间存在显著的相关性,证明了StaRPO的有效性。

🎯 应用场景

StaRPO可应用于各种需要复杂推理的自然语言处理任务,例如问答系统、知识图谱推理、代码生成等。通过提高推理的稳定性和准确性,可以提升这些应用的用户体验和可靠性。该研究对于开发更值得信赖和可解释的人工智能系统具有重要意义。

📄 摘要(原文)

Reinforcement learning (RL) is effective in enhancing the accuracy of large language models in complex reasoning tasks. Existing RL policy optimization frameworks rely on final-answer correctness as feedback signals and rarely capture the internal logical structure of the reasoning process. Consequently, the models would generate fluent and semantically relevant responses but logically inconsistent, structurally erratic, or redundant. To this end, we propose StaRPO, a stability-augmented reinforcement learning framework that explicitly incorporates reasoning stability into the optimization objective. Our StaRPO decomposes stability into two computable lightweight metrics: the Autocorrelation Function (ACF) to evaluate local step-to-step coherence, and Path Efficiency (PE) to evaluate global goal-directedness of the reasoning trajectory. These stability rewards are combined with task rewards to provide complementary and process-aware feedback. We validate the effectiveness of using ACF and PE rewards by showing their correlation with logic errors on two backbone models. Experiments on four reasoning benchmarks show that StaRPO consistently outperforms compared baselines and can enhance both final-answer accuracy and logical stability.