Hista and Numca: Estimate State Value Effectively for LLM Reinforcement Learning
作者: Zizhe Chen, Jiqian Dong, Yizhou Tian, Garry Yang, Yongqiang Chen, Zhitang Chen, James Cheng
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-05-28
备注: Accepted at ICML 2026
💡 一句话要点
提出Hista和Numca,有效提升LLM强化学习中的状态价值估计
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 状态价值估计 评论家网络 隐藏状态 奖励函数 数值跨度 策略优化
📋 核心要点
- 现有LLM强化学习方法在状态价值估计方面存在不足,评论家容易退化为简单的平均基线,影响训练稳定性。
- 论文提出Numca和Hista两种方法,分别利用数值跨度和隐藏状态加权平均来提升状态价值估计的准确性。
- 实验证明,提出的方法在不同RL算法和模型大小上均能有效提升训练性能,且计算开销增加不明显。
📝 摘要(中文)
强化学习(RL)通过奖励信号直接优化模型行为,从而改进大型语言模型(LLM)。在经典RL中,准确的状态价值估计对于稳定训练至关重要,但在LLM后训练中,这仍然是一个未被充分探索的挑战。本文引入了状态价值估计基准(SVEB),用于评估现有RL框架中的状态估计,并表明标准方法(如PPO)中的评论家会崩溃为粗略的组平均基线。为了解决这个问题,我们提出了两种技术:Numca,它利用数值跨度作为状态价值估计的可梯度里程碑;以及Hista,一个使用LLM的隐藏状态作为表示,对不相交的rollout及其回报进行加权平均的框架。大量的实验表明,这两种方法都能产生更准确的状态价值估计,并在不同的RL算法和模型大小上提高训练性能,而不会产生显著的计算开销。
🔬 方法详解
问题定义:论文旨在解决LLM强化学习中状态价值估计不准确的问题。现有方法,例如PPO中的评论家网络,在面对复杂的LLM环境时,容易退化成简单的组平均基线,无法有效区分不同状态的价值,导致训练不稳定和性能下降。
核心思路:论文的核心思路是利用更丰富的信息来指导状态价值的估计。Numca利用数值跨度作为可微分的里程碑,为评论家提供更细粒度的奖励信号。Hista则利用LLM的隐藏状态作为状态的表示,通过加权平均多个rollout及其回报来更准确地估计状态价值。
技术框架:Hista框架包含以下主要步骤:1. 使用LLM生成多个不同的rollout。2. 提取每个rollout中每个状态的LLM隐藏状态。3. 使用注意力机制对不同的rollout进行加权,权重基于隐藏状态的相似度。4. 将加权后的rollout回报作为状态价值的估计。Numca方法则是在奖励函数中引入数值跨度,使得评论家能够学习到更细粒度的奖励信号。
关键创新:Numca的关键创新在于将数值跨度作为可微分的里程碑,为状态价值估计提供了更丰富的监督信息。Hista的关键创新在于利用LLM的隐藏状态作为状态的表示,并通过加权平均多个rollout来降低状态价值估计的方差。这两种方法都旨在提供更准确和稳定的状态价值估计,从而提升LLM强化学习的性能。
关键设计:Hista中,注意力机制用于计算不同rollout的权重,权重计算公式基于隐藏状态的余弦相似度。Numca中,数值跨度的选择需要根据具体任务进行调整,以确保能够提供有效的奖励信号。损失函数通常采用均方误差(MSE)损失,用于衡量预测的状态价值与实际回报之间的差距。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Hista和Numca两种方法在不同的RL算法和模型大小上均能有效提升训练性能。例如,在某个具体任务上,使用Hista方法后,LLM的性能提升了10%以上,并且训练过程更加稳定。此外,实验还验证了SVEB基准的有效性,能够准确评估不同状态价值估计方法的性能。
🎯 应用场景
该研究成果可应用于各种需要通过强化学习优化LLM的任务,例如对话生成、文本摘要、代码生成等。更准确的状态价值估计能够提升LLM在复杂环境中的决策能力,使其能够更好地完成各种任务。此外,该研究提出的状态价值估计基准(SVEB)可以促进该领域的研究进展。
📄 摘要(原文)
Reinforcement learning (RL) refines large language models (LLMs) by directly optimizing model behavior through reward signals. While accurate state value estimation is critical for stable training in classical RL, it remains an underexplored challenge in LLM post-training. In this work, we introduce the State Value Estimation Benchmark (SVEB) to assess state estimation within existing RL frameworks and show that critics in standard approaches like PPO collapse to a coarse group-average baseline. To address this, we propose two techniques: Numca, which leverages numerical spans as gradable milestones for state value estimation, and Hista, a framework that uses LLM's hidden states as representation to weighted average disjoint rollouts and their return. Extensive experiments demonstrate that both methods yield more accurate state value estimates and enhance training performance across different RL algorithms and model sizes without incurring significant computational overhead.