Hölder Policy Optimisation

📄 arXiv: 2605.12058v1 📥 PDF

作者: Yuxiang Chen, Dingli Liang, Yihang Chen, Ziqin Gong, Chenyang Le, Zhaokai Wang, Jiachen Zhu, Lingyu Yang, Jianghao Lin, Weinan Zhang, Jun Wang

分类: cs.LG, cs.AI

发布日期: 2026-05-12


💡 一句话要点

提出HölderPO以解决GRPO聚合机制适应性不足问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 策略优化 动态聚合 Hölder均值 强化学习 模型适应性 性能提升

📋 核心要点

  1. 现有的GRPO方法在将轨迹级优势映射到策略更新时,依赖固定的聚合机制,导致适应性不足。
  2. HölderPO框架通过Hölder均值实现令牌级概率的动态聚合,允许对梯度集中与方差的权衡进行精细控制。
  3. 实验结果显示,HölderPO在多个数学基准上达到了54.9%的平均准确率,相较于标准GRPO提升了7.2%,并在ALFWorld上取得了93.8%的成功率。

📝 摘要(中文)

群体相对策略优化(GRPO)通过估计一组采样轨迹的优势来增强大型语言模型。然而,将这些轨迹级优势映射到策略更新需要在每个序列内聚合令牌级概率。依赖固定聚合机制限制了算法的适应性。我们观察到一个关键的权衡:某些固定聚合常常导致训练崩溃,而其他聚合则未能产生令人满意的性能。为了解决这个问题,我们提出了HölderPO,一个通过Hölder均值统一令牌级概率聚合的通用策略优化框架。通过显式调节参数p,我们的框架提供了对梯度集中与方差界限之间权衡的连续控制。理论上,我们证明了较大的p会集中梯度以放大稀疏学习信号,而较小的p则严格限制梯度方差。由于没有静态配置可以普遍解决这一权衡,我们采用动态退火算法在训练生命周期中逐步调节p。广泛的评估表明,相较于现有基线,我们的方法在稳定性和收敛性上表现优越。

🔬 方法详解

问题定义:论文旨在解决GRPO方法中固定聚合机制导致的适应性不足问题。现有方法在训练过程中容易出现崩溃或性能不佳的现象。

核心思路:HölderPO框架通过引入Hölder均值,动态调节聚合参数p,从而实现对梯度集中与方差的灵活控制,增强算法的适应性。

技术框架:该框架包括动态调整参数p的机制,结合了Hölder均值的计算过程,形成了一个自适应的策略优化流程。主要模块包括轨迹采样、优势估计和动态聚合。

关键创新:HölderPO的核心创新在于通过动态调节聚合参数p,解决了固定聚合机制带来的集中与稳定性权衡问题。这一设计使得算法在不同训练阶段能够自适应调整。

关键设计:在HölderPO中,参数p的动态退火算法是关键设计之一,能够在训练过程中逐步调整,以适应不同的学习信号强度。此外,损失函数和网络结构也经过精心设计,以支持这种动态调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HölderPO在多个数学基准上达到了54.9%的平均准确率,相较于标准GRPO提升了7.2%。在ALFWorld任务中,该方法取得了93.8%的成功率,展现了显著的性能优势和稳定性。

🎯 应用场景

HölderPO框架具有广泛的应用潜力,特别是在需要高适应性和稳定性的强化学习任务中,如机器人控制、自动驾驶和复杂决策系统。其动态聚合机制能够有效提升模型在多变环境中的表现,未来可能推动更多智能系统的开发与应用。

📄 摘要(原文)

Group Relative Policy Optimisation (GRPO) enhances large language models by estimating advantages across a group of sampled trajectories. However, mapping these trajectory-level advantages to policy updates requires aggregating token-level probabilities within each sequence. Relying on a fixed aggregation mechanism for this step fundamentally limits the algorithm's adaptability. Empirically, we observe a critical trade-off: certain fixed aggregations frequently suffer from training collapse, while others fail to yield satisfactory performance. To resolve this, we propose \textbf{HölderPO}, a generalised policy optimisation framework unifying token-level probability aggregation via the Hölder mean. By explicitly modulating the parameter $p$, our framework provides continuous control over the trade-off between gradient concentration and variance bounds. Theoretically, we prove that a larger $p$ concentrates the gradient to amplify sparse learning signals, whereas a smaller $p$ strictly bounds gradient variance. Because no static configuration can universally resolve this concentration-stability trade-off, we instantiate the framework with a dynamic annealing algorithm that progressively schedules $p$ across the training lifecycle. Extensive evaluations demonstrate superior stability and convergence over existing baselines. Specifically, our approach achieves a state-of-the-art average accuracy of $54.9\%$ across multiple mathematical benchmarks, yielding a substantial $7.2\%$ relative gain over standard GRPO and secures an exceptional $93.8\%$ success rate on ALFWorld.