Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL

作者: Jiarui Yao, Yifan Hao, Hanning Zhang, Hanze Dong, Wei Xiong, Nan Jiang, Tong Zhang

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-05-05

🔗 代码/项目: GITHUB

💡 一句话要点

提出GVM-RAFT，通过梯度方差最小化优化思维链推理，显著提升数学推理性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 思维链推理 强化学习 梯度方差最小化 动态采样 数学推理

📋 核心要点

现有CoT训练方法采用静态采样策略，导致随机梯度估计效率低下，未能充分利用计算资源。
GVM-RAFT通过动态调整样本分配，最小化随机梯度方差，从而优化CoT推理器的训练过程。
实验表明，GVM-RAFT在数学推理任务上实现了显著的加速和精度提升，并可推广到其他强化学习算法。

📝 摘要（中文）

大型语言模型中的思维链（CoT）推理可以形式化为一个潜在变量问题，模型需要生成中间推理步骤。现有的迭代奖励排序微调（RAFT）等方法通常对所有提示采用统一的推理预算，未能考虑难度和收敛行为的差异。本文指出CoT训练的主要瓶颈是静态采样策略导致的低效随机梯度估计。我们提出了GVM-RAFT，一种提示特定的动态样本分配策略，旨在计算预算约束下最小化随机梯度方差。该方法通过监控提示接受率和随机梯度范数动态分配计算资源，确保梯度方差最小化。理论分析表明，所提出的动态采样策略在适当条件下能加速收敛。在数学推理实验中，GVM-RAFT相比于vanilla RAFT实现了2-4倍的加速和显著的精度提升。该动态采样策略具有通用性，可以集成到其他强化学习算法（如GRPO）中，从而带来类似的收敛性和测试精度提升。代码已开源。

🔬 方法详解

问题定义：论文旨在解决思维链（CoT）推理训练中，由于静态采样策略导致的随机梯度估计效率低下的问题。现有方法如RAFT对所有prompt采用统一的计算预算，忽略了不同prompt的难度差异，导致计算资源分配不合理，收敛速度慢，性能提升有限。

核心思路：论文的核心思路是根据prompt的难度动态分配计算资源，通过最小化随机梯度方差来提高训练效率。具体来说，对于容易的prompt，减少采样次数；对于困难的prompt，增加采样次数，从而在整体计算预算不变的情况下，获得更准确的梯度估计。

技术框架：GVM-RAFT的整体框架基于RAFT，主要包含以下几个阶段：1) 使用LLM生成CoT推理过程；2) 使用奖励函数评估推理过程的质量；3) 使用强化学习算法（如策略梯度）更新LLM的参数。GVM-RAFT的关键在于在第1步中，根据prompt的接受率和梯度范数动态调整采样次数。

关键创新：GVM-RAFT最重要的技术创新点是提出了prompt特定的动态样本分配策略，该策略能够根据prompt的难度自适应地调整采样次数，从而最小化随机梯度方差。与现有方法相比，GVM-RAFT不再采用静态的采样策略，而是根据训练过程中的反馈信息动态调整采样策略，从而更有效地利用计算资源。

关键设计：GVM-RAFT的关键设计包括：1) 使用接受率来衡量prompt的难度，接受率越低，说明prompt越难；2) 使用随机梯度范数来衡量梯度估计的质量，梯度范数越大，说明梯度估计越不稳定；3) 根据接受率和梯度范数动态调整采样次数，具体来说，对于接受率低的prompt，增加采样次数；对于梯度范数大的prompt，也增加采样次数；4) 设计了相应的损失函数，以鼓励模型生成高质量的推理过程，并惩罚模型生成低质量的推理过程。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GVM-RAFT在数学推理任务上相比于vanilla RAFT实现了2-4倍的加速，并且显著提升了推理精度。例如，在某些数据集上，GVM-RAFT的准确率提升超过10%。此外，该方法还可以集成到其他强化学习算法（如GRPO）中，并带来类似的性能提升，验证了其通用性。

🎯 应用场景

该研究成果可广泛应用于需要复杂推理能力的自然语言处理任务，例如数学问题求解、知识图谱推理、常识推理等。通过提高推理效率和准确性，可以提升LLM在这些任务上的性能，并降低计算成本。此外，该动态采样策略也可推广到其他强化学习任务中，提升训练效率。

📄 摘要（原文）

Chain-of-thought (CoT) reasoning in large language models (LLMs) can be formalized as a latent variable problem, where the model needs to generate intermediate reasoning steps. While prior approaches such as iterative reward-ranked fine-tuning (RAFT) have relied on such formulations, they typically apply uniform inference budgets across prompts, which fails to account for variability in difficulty and convergence behavior. This work identifies the main bottleneck in CoT training as inefficient stochastic gradient estimation due to static sampling strategies. We propose GVM-RAFT, a prompt-specific Dynamic Sample Allocation Strategy designed to minimize stochastic gradient variance under a computational budget constraint. The method dynamically allocates computational resources by monitoring prompt acceptance rates and stochastic gradient norms, ensuring that the resulting gradient variance is minimized. Our theoretical analysis shows that the proposed dynamic sampling strategy leads to accelerated convergence guarantees under suitable conditions. Experiments on mathematical reasoning show that GVM-RAFT achieves a 2-4x speedup and considerable accuracy improvements over vanilla RAFT. The proposed dynamic sampling strategy is general and can be incorporated into other reinforcement learning algorithms, such as GRPO, leading to similar improvements in convergence and test accuracy. Our code is available at https://github.com/RLHFlow/GVM.

Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理