Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States
作者: Yunho Choi, Jongwon Lim, Woojin Ahn, Minjae Oh, Jeonghoon Shim, Yohan Jo
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-05-08
💡 一句话要点
提出POISE框架:利用策略模型内部状态进行价值估计,实现高效的大语言模型强化学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 大语言模型 推理能力 价值估计 策略优化 计算效率
📋 核心要点
- 现有RLVR方法中,PPO依赖昂贵的Critic模型,而GRPO需多次采样以稳定均值,两者均面临高昂的计算开销。
- POISE通过轻量级探针提取策略模型内部隐藏状态与熵统计信息,实现无需额外大规模Critic模型的价值估计。
- 在Qwen3-4B等模型上的实验表明,POISE在数学推理任务中以更低的计算成本达到了与DAPO相当的性能。
📝 摘要(中文)
针对大语言模型推理任务中的可验证奖励强化学习(RLVR),现有的基线估计方法存在显著局限:PPO需要与策略模型同等规模的Critic模型,而GRPO则依赖多次采样以维持组均值的稳定性。本文提出了POISE(Policy Optimization with Internal State Value Estimation),通过利用策略模型在前向传播过程中产生的内部信号,以极低代价获取基线估计。该方法通过一个轻量级探针(Probe)预测隐藏状态及Token熵统计信息中的预期奖励,并与策略模型同步在线训练。为了保证梯度无偏性,POISE采用跨Rollout构建机制,利用独立Rollout的内部状态预测当前轨迹价值。实验表明,POISE在保持计算效率的同时,显著提升了训练稳定性,在数学推理基准测试中表现优于现有方法。
🔬 方法详解
问题定义:论文旨在解决大语言模型强化学习中基线估计(Baseline Estimation)的计算效率与方差控制问题。现有方法要么引入与策略模型同等规模的Critic模型(如PPO),要么依赖大规模采样(如GRPO),导致训练资源消耗巨大。
核心思路:POISE的核心思想是“模型即评论家(Model is its own critic)”。利用策略模型在生成过程中产生的隐藏状态(Hidden States)和Token熵作为特征,通过轻量级探针直接预测预期奖励,从而省去独立的价值模型。
技术框架:POISE架构包含策略模型主体和一个轻量级探针模块。在训练过程中,探针接收策略模型前向传播的中间层输出,结合提示词与生成轨迹的特征,在线预测当前状态的价值,并据此计算优势函数(Advantage)以更新策略。
关键创新:引入了“跨Rollout构建(Cross-rollout construction)”机制。为了避免使用轨迹自身特征导致梯度偏差,POISE利用不同Rollout的内部状态来预测当前轨迹的价值,确保了估计的无偏性,同时实现了单Rollout的高效训练。
关键设计:探针模块设计为轻量级,仅包含少量线性层或小型MLP。损失函数结合了策略梯度损失与价值预测的均方误差损失,通过在线学习方式与策略模型同步优化,有效降低了梯度方差并消除了零优势提示词的采样开销。
🖼️ 关键图片
📊 实验亮点
POISE在Qwen3-4B和DeepSeek-R1-Distill-Qwen-1.5B模型上进行了验证。实验结果显示,POISE在数学推理任务中不仅匹配了DAPO的性能,且计算开销显著降低。其价值估计器的表现与独立的大规模价值模型相当,证明了利用模型内部表示进行价值估计的有效性与泛化能力。
🎯 应用场景
该研究主要应用于大语言模型的推理能力增强,特别是在数学、代码生成及逻辑推理等具有明确可验证奖励(Verifiable Reward)的领域。其高效的训练机制使得在有限计算资源下微调大规模推理模型成为可能,对提升模型在复杂任务中的表现具有重要价值。
📄 摘要(原文)
Reinforcement learning with verifiable rewards (RLVR) for Large Reasoning Models hinges on baseline estimation for variance reduction, but existing approaches pay a heavy price: PPO requires a policy-model scale critic, while GRPO needs multiple rollouts per prompt to keep its empirical group mean stable. We introduce Policy Optimization with Internal State Value Estimation), which obtains a baseline at negligible cost by using the policy model's internal signals already computed during the policy forward pass. A lightweight probe predicts the expected verifiable reward from the hidden states of the prompt and generated trajectory, as well as token-entropy statistics, and is trained online alongside the policy. To preserve gradient unbiasedness despite using trajectory-conditioned features, we introduce a cross-rollout construction that predicts each rollout's value from an independent rollout's internal states. Because POISE estimates prompt value using only a single rollout, it enables higher prompt diversity for a fixed compute budget during training. This reduces gradient variance for more stable learning and also eliminates the compute overhead of sampling costs for detecting zero-advantage prompts. On Qwen3-4B and DeepSeek-R1-Distill-Qwen-1.5B across math reasoning benchmarks, POISE matches DAPO while requiring less compute. Moreover, its value estimator shows similar performance to a separate LLM-scale value model and generalizes to various verifiable tasks. By leveraging the model's own internal representations, POISE enables more stable and efficient policy optimization.