BASIS: Batchwise Advantage Estimation from Single-Rollout Information Sharing for LLM Reasoning

📄 arXiv: 2605.27293v1 📥 PDF

作者: Shijin Gong, Erhan Xu, Kai Ye, Francesco Quinzan, Giulia Livieri, Chengchun Shi

分类: cs.LG, stat.ML

发布日期: 2026-05-26

备注: 17 pages, 7 figures


💡 一句话要点

BASIS:利用单次Rollout信息共享进行批量优势估计,提升LLM推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 推理能力 价值估计 优势函数

📋 核心要点

  1. 现有强化学习算法在提升LLM推理能力时,面临价值估计和策略学习中计算效率与样本效率的权衡难题。
  2. BASIS算法通过在批次内共享单次rollout的信息,改进价值函数估计,从而在单次rollout下实现更高效的策略优化。
  3. 实验证明,BASIS显著降低了价值函数估计的均方误差,并以更少的训练时间达到甚至超过多rollout基线的性能。

📝 摘要(中文)

本文提出了一种名为BASIS的免Critic后训练算法,旨在解决大型语言模型推理能力提升中计算效率和样本效率之间的权衡问题。BASIS在每个在线训练步骤中,仅对每个提示采样一次rollout,但利用整个批次中丰富的提示间信息来改进价值函数估计。实验表明,与具有代表性的单次rollout基线REINFORCE++相比,BASIS将价值函数估计的MSE降低了69%,并且使用一次rollout实现了比使用8次rollout的组均值估计器更低的MSE。价值估计的改进转化为更好的策略优化:BASIS使用明显更少的训练时间,实现了接近多rollout GRPO类型基线的性能,并且通常优于单rollout REINFORCE类型基线。

🔬 方法详解

问题定义:论文旨在解决使用强化学习提升大型语言模型(LLM)推理能力时,价值函数估计的效率问题。现有的单次rollout方法(如REINFORCE++)样本效率低,价值估计不准确;而多rollout方法(如GRPO)计算成本高昂,难以扩展到大规模LLM训练。

核心思路:BASIS的核心思想是在每个训练步骤中,仅采样一次rollout,但通过批次内的信息共享来提升价值函数估计的准确性。它利用批次内其他prompt的rollout信息,对当前prompt的价值函数进行更精确的估计,从而提高样本效率。

技术框架:BASIS是一种免Critic的后训练算法,其主要流程如下:1) 收集一个包含多个prompt的批次;2) 对于每个prompt,采样一次rollout;3) 使用批次内所有rollout的信息,计算每个prompt的优势函数(Advantage Function);4) 使用优势函数更新策略。该算法避免了显式地训练价值函数,从而降低了计算复杂度。

关键创新:BASIS的关键创新在于提出了批次化优势估计方法,通过在批次内共享信息,克服了单次rollout方法价值估计不准确的问题。与现有方法的本质区别在于,BASIS不是简单地使用单次rollout的奖励来估计价值,而是利用批次内其他rollout的信息进行校正,从而获得更准确的价值估计。

关键设计:BASIS的关键设计包括:1) 优势函数的计算方式,论文中具体使用了何种优势函数计算方法(例如,基于时间差分学习的优势函数估计);2) 如何利用批次内信息进行优势函数的校正,具体的信息共享策略和计算公式;3) 策略更新的方式,例如使用Proximal Policy Optimization (PPO) 或 Trust Region Policy Optimization (TRPO) 等算法进行策略更新。具体的技术细节在论文中应该有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BASIS算法在价值函数估计方面取得了显著的提升,与REINFORCE++相比,MSE降低了69%,并且使用一次rollout实现了比使用8次rollout的组均值估计器更低的MSE。在策略优化方面,BASIS使用更少的训练时间,实现了接近多rollout GRPO类型基线的性能,并且通常优于单rollout REINFORCE类型基线。

🎯 应用场景

BASIS算法可应用于各种需要提升LLM推理能力的场景,例如问答系统、代码生成、数学问题求解等。该算法降低了训练LLM的计算成本,使得在资源有限的条件下也能有效地提升LLM的推理能力。未来,该算法可以进一步扩展到更复杂的任务和更大的模型。

📄 摘要(原文)

Reinforcement learning with verifiable rewards has become a standard recipe for improving the reasoning abilities of large language models. Existing algorithms face a tradeoff between computational efficiency and sample efficiency in value estimation and policy learning. We introduce BASIS, a critic-free post-training algorithm designed to address this tradeoff. At each online training step, BASIS samples only one rollout per prompt, but leverages rich information across prompts in the entire batch to improve value function estimation. Our experiments demonstrate that BASIS reduces MSE in value function estimation by 69% compared to REINFORCE++, a representative single-rollout baseline, and achieves lower MSE with one rollout than group mean estimators with 8 rollouts. This improvement in value estimation translates to better policy optimization: using substantially less training time, BASIS achieves performance close to multi-rollout GRPO-type baselines and often outperforms single-rollout REINFORCE-type baselines.