EVPO: Explained Variance Policy Optimization for Adaptive Critic Utilization in LLM Post-Training

📄 arXiv: 2604.19485v1 📥 PDF

作者: Chengjun Pan, Shichun Liu, Jiahang Lin, Dingwei Zhu, Jiazheng Zhang, Shihan Dou, Songyang Gao, Zhenhua Han, Binghai Wang, Rui Zheng, Xuanjing Huang, Tao Gui, Yansong Feng

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-21


💡 一句话要点

EVPO:通过解释方差自适应评论家利用,提升LLM后训练效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 大型语言模型 后训练 策略优化 解释方差

📋 核心要点

  1. 在LLM后训练的强化学习中,如何有效利用评论家(critic)来优化策略是一个关键问题,现有方法在稀疏奖励场景下表现不佳。
  2. 论文将基线选择问题转化为卡尔曼滤波问题,通过解释方差(EV)来判断评论家是否能有效降低方差,并自适应地选择基线。
  3. 提出的EVPO方法在多个任务上超越了PPO和GRPO,证明了自适应选择基线的有效性,并验证了理论推导的零阈值是经验最优的。

📝 摘要(中文)

大型语言模型(LLM)的后训练强化学习(RL)面临一个基本的设计选择:是否使用学习到的评论家(critic)作为策略优化的基线。经典理论倾向于使用基于评论家的方法,如PPO,以减少方差,但由于其简单性和有竞争力的性能,像GRPO这样无评论家的替代方案已获得广泛采用。我们表明,在稀疏奖励设置中,学习到的评论家会注入超过其捕获的状态信号的估计噪声,从而增加而非减少优势方差。通过将基线选择视为卡尔曼滤波问题,我们将PPO和GRPO统一为卡尔曼增益的两个极端,并证明了解释方差(EV)可以从单个训练批次中计算出来,从而确定了精确的边界:正EV表示评论家减少了方差,而零或负EV表示它放大了方差。基于此,我们提出了解释方差策略优化(EVPO),它在每个训练步骤中监视批次级别的EV,并自适应地在基于评论家和批次平均优势估计之间切换,从而在每个步骤中实现的方差不会大于两者中较好的一个。在涵盖经典控制、智能体交互和数学推理的四个任务中,无论哪种固定基线在给定任务上更强,EVPO始终优于PPO和GRPO。进一步的分析证实,自适应门控跟踪了训练过程中评论家的成熟度,并且理论上导出的零阈值在经验上是最优的。

🔬 方法详解

问题定义:论文旨在解决LLM后训练中,如何有效利用评论家(critic)来减少策略优化方差的问题。现有方法,如PPO,依赖评论家作为基线,但在稀疏奖励场景下,评论家引入的估计噪声可能超过其捕获的状态信号,反而增加方差。而GRPO等无评论家方法虽然简单,但可能无法充分利用评论家提供的价值信息。

核心思路:论文的核心思路是将基线选择问题建模为卡尔曼滤波问题,并利用解释方差(Explained Variance, EV)来判断评论家是否能有效降低方差。EV可以从单个训练批次中计算得到,正EV表示评论家可以减少方差,负EV表示评论家会增加方差。基于此,论文提出了一种自适应的策略优化方法,根据EV动态地选择是否使用评论家作为基线。

技术框架:EVPO的整体框架是在策略优化过程中,每个训练步骤都计算当前批次的EV。如果EV为正,则使用基于评论家的优势估计(类似于PPO);如果EV为零或负,则使用批次平均优势估计(类似于GRPO)。通过这种方式,EVPO可以自适应地选择更合适的基线,从而降低方差。

关键创新:论文的关键创新在于提出了使用解释方差(EV)作为选择评论家基线的指标。通过将基线选择问题转化为卡尔曼滤波问题,论文从理论上证明了EV与方差降低之间的关系。与现有方法相比,EVPO能够根据实际情况动态地选择基线,从而更有效地降低方差。

关键设计:EVPO的关键设计在于EV的计算方法和自适应切换机制。EV的计算基于当前批次的样本,可以有效地反映评论家在当前状态下的估计质量。自适应切换机制则根据EV的值,在基于评论家的优势估计和批次平均优势估计之间进行切换。理论分析表明,这种切换机制可以保证EVPO的方差不会大于两者中较好的一个。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EVPO在经典控制、智能体交互和数学推理等四个任务上均优于PPO和GRPO。无论哪种固定基线在给定任务上表现更优,EVPO都能取得更好的效果。进一步的分析表明,EVPO的自适应门控能够跟踪评论家在训练过程中的成熟度,并且理论上导出的零阈值在实验中也得到了验证。

🎯 应用场景

EVPO方法可以广泛应用于各种需要使用强化学习进行后训练的大型语言模型。例如,可以用于优化LLM在对话生成、文本摘要、代码生成等任务中的表现。通过自适应地利用评论家,EVPO可以提高训练效率和模型性能,尤其是在奖励稀疏或评论家估计不准确的情况下。

📄 摘要(原文)

Reinforcement learning (RL) for LLM post-training faces a fundamental design choice: whether to use a learned critic as a baseline for policy optimization. Classical theory favors critic-based methods such as PPO for variance reduction, yet critic-free alternatives like GRPO have gained widespread adoption due to their simplicity and competitive performance. We show that in sparse-reward settings, a learned critic can inject estimation noise that exceeds the state signal it captures, increasing rather than reducing advantage variance. By casting baseline selection as a Kalman filtering problem, we unify PPO and GRPO as two extremes of the Kalman gain and prove that explained variance (EV), computable from a single training batch, identifies the exact boundary: positive EV indicates the critic reduces variance, while zero or negative EV signals that it inflates variance. Building on this insight, we propose Explained Variance Policy Optimization (EVPO), which monitors batch-level EV at each training step and adaptively switches between critic-based and batch-mean advantage estimation, provably achieving no greater variance than the better of the two at every step. Across four tasks spanning classical control, agentic interaction, and mathematical reasoning, EVPO consistently outperforms both PPO and GRPO regardless of which fixed baseline is stronger on a given task. Further analysis confirms that the adaptive gating tracks critic maturation over training and that the theoretically derived zero threshold is empirically optimal.