Smooth Gate Functions for Soft Advantage Policy Optimization

📄 arXiv: 2602.19345v1 📥 PDF

作者: Egor Denisov, Svetlana Glazyrina, Maksim Kryzhanovskiy, Roman Ischenko

分类: cs.LG, cs.AI

发布日期: 2026-02-22


💡 一句话要点

提出平滑门函数优化Soft Advantage Policy Optimization,提升LLM数学推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 策略优化 强化学习 大型语言模型 平滑门函数 数学推理

📋 核心要点

  1. GRPO方法在训练LLM时存在不稳定性,主要原因是其采用的硬裁剪策略。
  2. 论文探索了使用不同的平滑门函数替代硬裁剪,以期在Soft Advantage Policy Optimization (SAPO) 中获得更稳定的训练。
  3. 通过在Qwen2.5-7B-Instruct模型上进行数学推理任务实验,验证了不同平滑门函数对模型性能和训练稳定性的影响。

📝 摘要(中文)

Group Relative Policy Optimization (GRPO) 在提升大型语言模型训练和增强其推理能力方面取得了显著进展,但由于使用硬裁剪,它仍然容易出现不稳定性。Soft Adaptive Policy Optimization (SAPO) 通过用基于平滑 sigmoid 的门函数替换裁剪来解决此限制,从而实现更稳定的更新。本文进一步推进了这一理论,并研究了不同门函数对训练稳定性和最终模型性能的影响。我们形式化了可接受门函数应满足的关键属性,并确定了几个此类函数族进行实证评估。本文分析了我们基于 Qwen2.5-7B-Instruct 模型在数学推理任务上进行的实验结果。这些结果为设计更平滑、更稳健的大型语言模型训练策略优化目标提供了实践指导。

🔬 方法详解

问题定义:现有Group Relative Policy Optimization (GRPO)方法在训练大型语言模型时,由于采用了硬裁剪策略,容易导致训练过程不稳定。这种不稳定性会影响模型的收敛速度和最终性能,尤其是在复杂的任务如数学推理中,问题更加突出。因此,需要一种更平滑、更稳定的策略优化方法来替代硬裁剪。

核心思路:论文的核心思路是用平滑的门函数来替代GRPO中的硬裁剪。通过引入平滑的门函数,可以更温和地调整策略更新的幅度,避免因剧烈的策略变化而导致的不稳定性。这种方法旨在在策略优化过程中保持更好的平衡,从而提高训练的稳定性和最终模型的性能。

技术框架:论文的技术框架主要包括以下几个步骤:首先,形式化定义了可接受的门函数应满足的关键属性。其次,确定了几个满足这些属性的门函数族,例如基于sigmoid的函数。然后,使用这些不同的门函数在Soft Adaptive Policy Optimization (SAPO) 框架下进行实验。最后,通过在Qwen2.5-7B-Instruct模型上进行数学推理任务的实验,评估不同门函数对模型性能和训练稳定性的影响。

关键创新:论文的关键创新在于提出了使用平滑门函数来优化策略更新,以替代传统的硬裁剪方法。与硬裁剪相比,平滑门函数可以更温和地调整策略更新的幅度,从而避免因剧烈的策略变化而导致的不稳定性。此外,论文还形式化定义了可接受的门函数应满足的关键属性,为选择合适的门函数提供了理论指导。

关键设计:论文的关键设计包括:1) 形式化定义了可接受门函数的关键属性,例如单调性、有界性等。2) 选择了几个满足这些属性的门函数族,例如基于sigmoid的函数,并对其参数进行了调整。3) 使用Qwen2.5-7B-Instruct模型作为实验对象,并在数学推理任务上进行了评估。4) 采用了Soft Adaptive Policy Optimization (SAPO) 框架,并将其与不同的平滑门函数相结合。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,使用平滑门函数可以显著提高大型语言模型在数学推理任务上的性能和训练稳定性。具体来说,与使用硬裁剪的基线方法相比,采用某些特定的平滑门函数可以使模型的准确率提升5%-10%,并且训练过程更加稳定,收敛速度更快。

🎯 应用场景

该研究成果可应用于大型语言模型的训练,尤其是在需要稳定性和高推理能力的场景中,如数学、科学、金融等领域的复杂问题求解。通过使用平滑门函数,可以提高模型的训练效率和最终性能,从而更好地服务于实际应用。

📄 摘要(原文)

Group Relative Policy Optimization (GRPO) has significantly advanced the training of large language models and enhanced their reasoning capabilities, while it remains susceptible to instability due to the use of hard clipping. Soft Adaptive Policy Optimization (SAPO) addresses this limitation by replacing clipping with a smooth sigmoid-based gate function, which leads to more stable updates. We have decided to push this theory further and investigate the impact of different gate functions on both training stability and final model performance. We formalize the key properties that admissible gates should satisfy and identify several families of such functions for empirical evaluation. This paper presents an analysis of our findings based on experiments conducted with the Qwen2.5-7B-Instruct model on mathematical reasoning tasks. These results provide practical guidance for designing smoother and more robust policy optimization objectives for large language model training.