Clipping-Free Policy Optimization for Large Language Models

📄 arXiv: 2601.22801v1 📥 PDF

作者: Ömer Veysel Çağatan, Barış Akgün, Gözde Gül Şahin, Xuandong Zhao

分类: cs.LG

发布日期: 2026-01-30

备注: 23 pages, 10 tables, 8 figures


💡 一句话要点

提出无剪切策略优化以解决大语言模型训练不稳定问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大语言模型 策略优化 无剪切机制 训练稳定性 自然语言处理 全变差散度

📋 核心要点

  1. 现有的强化学习算法在大语言模型的后训练中依赖剪切机制,导致优化不稳定和训练效率低下。
  2. 论文提出的CFPO方法用凸二次惩罚替代剪切,确保了目标函数的可微性,从而实现稳定的策略更新。
  3. 实验结果表明,CFPO在推理和对齐任务中表现出色,且无需额外的超参数设置,易于实现。

📝 摘要(中文)

强化学习在大语言模型的后训练中变得至关重要,但现有算法依赖的剪切机制引入了优化问题,包括零梯度区域、奖励黑客和训练不稳定性。我们提出了无剪切策略优化(CFPO),用从全变差散度约束中推导的凸二次惩罚替代启发式剪切,得到了一个在任何地方可微的目标,确保了稳定的策略更新而没有硬边界。我们在推理和对齐设置中评估CFPO。在推理中,CFPO在下游基准上与基于剪切的方法相匹配,同时扩展了稳定训练的范围。在对齐中,CFPO减轻了冗长利用和能力退化,同时实现了竞争性的指令跟随性能。CFPO只需一行代码更改,无需额外超参数。我们的结果表明,CFPO是基于剪切的方法在LLM后训练中的有前景的替代方案。

🔬 方法详解

问题定义:现有的强化学习算法在大语言模型的后训练中依赖剪切机制,这导致了优化过程中的零梯度区域、奖励黑客和训练不稳定等问题。

核心思路:CFPO通过引入凸二次惩罚来替代传统的剪切机制,从而构建一个在任何地方可微的目标函数,确保策略更新的稳定性。这样的设计避免了硬边界带来的优化问题。

技术框架:CFPO的整体架构包括目标函数的构建、策略更新的计算和稳定性评估等主要模块。通过引入全变差散度约束,CFPO能够在多个训练阶段保持稳定性。

关键创新:CFPO的核心创新在于用凸二次惩罚替代剪切机制,使得目标函数在整个参数空间内可微,显著提升了训练的稳定性和效率。

关键设计:CFPO的设计中,损失函数采用了基于全变差散度的惩罚项,确保了策略更新的平滑性。此外,该方法只需一行代码更改,且不需要额外的超参数设置,便于实际应用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CFPO在推理任务中与基于剪切的方法表现相当,同时扩展了稳定训练的范围。在对齐任务中,CFPO有效减轻了冗长利用和能力退化,且在指令跟随性能上保持竞争力,展示了其作为剪切方法替代方案的潜力。

🎯 应用场景

该研究的潜在应用领域包括大语言模型的后训练、强化学习的优化算法以及自然语言处理任务。CFPO的设计使其能够在多种场景中实现稳定的训练效果,具有广泛的实际价值和未来影响。

📄 摘要(原文)

Reinforcement learning has become central to post-training large language models, yet dominant algorithms rely on clipping mechanisms that introduce optimization issues at scale, including zero-gradient regions, reward hacking, and training instability. We propose Clipping-Free Policy Optimization (CFPO), which replaces heuristic clipping with a convex quadratic penalty derived from Total Variation divergence constraints, yielding an everywhere-differentiable objective that enforces stable policy updates without hard boundaries. We evaluate CFPO across both reasoning and alignment settings. In reasoning, CFPO matches clipping-based methods on downstream benchmarks while extending the stable training regime. In alignment, CFPO mitigates verbosity exploitation and reduces capability degradation, while achieving competitive instruction-following performance. CFPO requires only a one-line code change and no additional hyperparameters. Our results suggest that CFPO is a promising drop-in alternative to clipping-based methods for LLM post-training.