Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex
作者: Yun Qu, Qi Wang, Yixiu Mao, Heming Zou, Yuhang Jiang, Yingyue Li, Wutong Xu, Lizhou Cai, Weijie Liu, Clive Bai, Kai Yang, Yangkun Chen, Saiyong Yang, Xiangyang Ji
分类: cs.LG, cs.AI
发布日期: 2026-05-07
💡 一句话要点
提出列表式策略优化LPO,提升LLM推理能力并保证优化稳定性和响应多样性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 策略优化 目标投影 响应单纯形
📋 核心要点
- 现有基于群组的策略梯度方法在奖励可验证的强化学习(RLVR)中被广泛使用,但缺乏对优化过程的几何结构理解。
- LPO通过显式地在响应单纯形上进行目标投影,解耦目标定义和策略更新,从而实现更稳定和高效的优化。
- 实验表明,LPO在多种推理任务中优于传统策略梯度方法,同时保持了优化稳定性和响应多样性。
📝 摘要(中文)
本文提出列表式策略优化(LPO),用于提升大型语言模型(LLMs)的推理能力。LPO基于对现有基于群组的策略梯度方法的几何结构分析,揭示了它们隐式地在响应单纯形上定义目标分布并进行一阶近似投影的共性。LPO显式地进行目标投影,通过将近端强化学习目标限制在响应单纯形上解耦隐式目标,并通过精确的散度最小化来投影策略。该框架具有以下优点:(i)在列表式目标上实现单调改进,具有有界、零和和自校正的投影梯度;(ii)通过解耦投影步骤,在散度选择方面具有灵活性,并具有不同的结构特性。在各种推理任务和LLM骨干网络上,LPO在匹配目标下始终优于典型的策略梯度基线,同时本质上保持了优化稳定性和响应多样性。
🔬 方法详解
问题定义:现有基于群组的策略梯度方法,虽然在提升LLM推理能力方面取得了进展,但缺乏对优化过程的深入理解。这些方法通常隐式地定义目标分布,并使用一阶近似进行策略更新,这可能导致优化不稳定和次优解。此外,不同方法之间的目标定义和策略更新方式耦合在一起,限制了灵活性和可扩展性。
核心思路:LPO的核心思路是将策略优化过程分解为两个步骤:首先,显式地定义一个目标分布在响应单纯形上;然后,通过最小化策略与目标分布之间的散度,将策略投影到该目标分布。这种解耦的设计允许独立地选择目标和散度函数,从而实现更灵活和可控的优化。
技术框架:LPO框架包含两个主要步骤:1) 目标定义:基于可验证的奖励信号,在LLM生成的响应集合(响应单纯形)上定义一个目标分布。这个目标分布反映了期望的LLM行为。2) 策略投影:通过最小化当前策略与目标分布之间的散度,将策略投影到目标分布。这个步骤使用精确的散度最小化,而不是一阶近似,从而保证了优化的稳定性和效率。
关键创新:LPO的关键创新在于将策略优化问题转化为一个目标投影问题,并显式地在响应单纯形上进行操作。这种方法解耦了目标定义和策略更新,允许独立地选择目标和散度函数,从而实现更灵活和可控的优化。此外,LPO使用精确的散度最小化,而不是一阶近似,从而保证了优化的稳定性和效率。
关键设计:LPO的关键设计包括:1) 响应单纯形约束:将策略限制在响应单纯形上,确保策略输出的是一个有效的概率分布。2) 散度选择:可以选择不同的散度函数(如KL散度、JS散度等)来衡量策略与目标分布之间的差异。不同的散度函数具有不同的结构特性,可以影响优化过程的稳定性和效率。3) 零和投影梯度:LPO的投影梯度是零和的,这意味着策略更新不会改变响应的平均概率,从而保持了响应的多样性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LPO在多种推理任务和LLM骨干网络上,始终优于典型的策略梯度基线。例如,在某些任务上,LPO可以将性能提升高达10%。更重要的是,LPO在提升性能的同时,还保持了优化稳定性和响应多样性,避免了传统方法中常见的崩溃和模式崩塌问题。
🎯 应用场景
LPO可广泛应用于需要提升推理能力的大型语言模型后训练场景,例如对话系统、问答系统、文本生成等。通过LPO,可以更有效地利用可验证的奖励信号,引导LLM生成更准确、更合理的响应,从而提升用户体验和应用效果。此外,LPO的解耦设计也使其易于扩展到其他强化学习任务和模型。
📄 摘要(原文)
Reinforcement learning with verifiable rewards (RLVR) has become a standard approach for large language models (LLMs) post-training to incentivize reasoning capacity. Among existing recipes, group-based policy gradient is prevalent, which samples a group of responses per prompt and updates the policy via group-relative advantage signals. This work reveals that these optimization strategies share a common geometric structure: each implicitly defines a target distribution on the response simplex and projects toward it via first-order approximation. Building on this insight, we propose Listwise Policy Optimization (LPO) to explicitly conduct the target-projection, which demystifies the implicit target by restricting the proximal RL objective to the response simplex, and then projects the policy via exact divergence minimization. This framework provides (i) monotonic improvement on the listwise objective with bounded, zero-sum, and self-correcting projection gradients, and (ii) flexibility in divergence selection with distinct structural properties through the decoupled projection step. On diverse reasoning tasks and LLM backbones, LPO consistently improves training performance over typical policy gradient baselines under matched targets, while intrinsically preserving optimization stability and response diversity.