Improving Value-based Process Verifier via Low-Cost Variance Reduction

作者: Zetian Sun, Dongfang Li, Baotian Hu, Min Zhang

分类: cs.AI, cs.CL

发布日期: 2025-08-14 (更新: 2026-01-27)

备注: Accepted by AAAI-2026

💡 一句话要点

提出ComMCS方法，通过低成本方差缩减提升基于价值的过程验证器性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 过程验证器 方差缩减 蒙特卡洛采样 推理能力

📋 核心要点

现有基于价值的过程验证器受限于LLM推理成本，导致蒙特卡洛采样数量不足，训练标注存在高方差的估计误差。
论文提出ComMCS方法，通过组合当前和后续步骤的蒙特卡洛估计器，构建无偏估计器，实现方差缩减。
实验表明，ComMCS在MATH-500和GSM8K基准上优于现有方法，尤其是在MATH-500的Best-of-32采样实验中提升显著。

📝 摘要（中文）

大型语言模型(LLMs)在各种任务中取得了显著成功。然而，它们的推理能力，尤其是在数学等复杂领域，仍然是一个重大挑战。基于价值的过程验证器，用于估计部分推理链导致正确解决方案的概率，是提高推理能力的一种有前景的方法。然而，它们的有效性通常受到训练标注中估计误差的阻碍，这是由于LLM推理的高成本导致可行的蒙特卡洛(MC)样本数量有限。本文指出，估计误差主要来自高方差而非偏差，并且MC估计器是最小方差无偏估计器(MVUE)。为了解决这个问题，我们提出了 extsc{Com}pound extsc{M}onte extsc{C}arlo extsc{S}ampling (ComMCS)方法，该方法通过线性组合当前和后续步骤的MC估计器来构建无偏估计器。从理论上讲，我们证明了我们的方法可以预测性地减少方差，同时在没有额外LLM推理成本的情况下保持无偏估计。我们还在MATH-500和GSM8K基准上进行了实证实验，以证明我们方法的有效性。值得注意的是，在Best-of-32采样实验中，ComMCS在MATH-500上优于基于回归的优化方法2.8个点，优于非方差缩减基线2.2个点。

🔬 方法详解

问题定义：论文旨在解决基于价值的过程验证器在训练过程中，由于LLM推理成本高昂，蒙特卡洛采样数量受限，导致训练数据方差过高的问题。现有方法难以有效利用有限的样本进行训练，影响了验证器的性能。现有方法的痛点在于无法在不增加LLM推理成本的前提下，降低训练数据的方差。

核心思路：论文的核心思路是利用相邻步骤的蒙特卡洛估计器进行线性组合，构建一个新的无偏估计器。这种组合方式能够在不增加LLM推理成本的前提下，有效地降低估计器的方差。其设计基于蒙特卡洛估计器是最小方差无偏估计器(MVUE)的理论基础，通过巧妙的线性组合，可以预测性地减少方差。

技术框架：ComMCS方法的技术框架主要包含以下几个步骤：1) 使用LLM生成推理链；2) 对推理链的每个步骤进行蒙特卡洛采样，得到价值估计；3) 使用ComMCS方法，将当前步骤和后续步骤的蒙特卡洛估计器进行线性组合，得到新的价值估计；4) 使用新的价值估计训练过程验证器。整体流程是在标准的过程验证器训练流程中，插入ComMCS模块，用于优化价值估计。

关键创新：最重要的技术创新点在于提出了ComMCS方法，该方法能够在不增加LLM推理成本的前提下，有效地降低价值估计的方差。与现有方法的本质区别在于，ComMCS方法利用了相邻步骤的信息，通过线性组合的方式，实现了方差缩减，而现有方法通常依赖于增加采样数量或使用回归模型进行优化，但这些方法要么成本高昂，要么效果有限。

关键设计：ComMCS的关键设计在于线性组合的权重选择。论文中，权重是根据理论推导得到的，旨在最小化新估计器的方差，同时保证无偏性。具体的权重计算公式未知，但其核心思想是平衡当前步骤和后续步骤的信息，以达到最佳的方差缩减效果。此外，ComMCS方法可以灵活地应用于不同的过程验证器和LLM，具有较强的通用性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ComMCS方法在MATH-500和GSM8K基准上均取得了显著的性能提升。在MATH-500的Best-of-32采样实验中，ComMCS优于基于回归的优化方法2.8个点，优于非方差缩减基线2.2个点。这些结果表明，ComMCS方法能够有效地降低价值估计的方差，从而提升过程验证器的性能。

🎯 应用场景

该研究成果可应用于各种需要复杂推理的场景，例如数学问题求解、代码生成、知识图谱推理等。通过提高过程验证器的准确性，可以显著提升LLM在这些任务中的性能，降低错误率，提高可靠性。未来，该方法有望扩展到其他类型的推理任务，并与其他方差缩减技术相结合，进一步提升LLM的推理能力。

📄 摘要（原文）

Large language models (LLMs) have achieved remarkable success in a wide range of tasks. However, their reasoning capabilities, particularly in complex domains like mathematics, remain a significant challenge. Value-based process verifiers, which estimate the probability of a partial reasoning chain leading to a correct solution, are a promising approach for improving reasoning. Nevertheless, their effectiveness is often hindered by estimation error in their training annotations, a consequence of the limited number of Monte Carlo (MC) samples feasible due to the high cost of LLM inference. In this paper, we identify that the estimation error primarily arises from high variance rather than bias, and the MC estimator is a Minimum Variance Unbiased Estimator (MVUE). To address the problem, we propose the \textsc{Com}pound \textsc{M}onte \textsc{C}arlo \textsc{S}ampling (ComMCS) method, which constructs an unbiased estimator by linearly combining the MC estimators from the current and subsequent steps. Theoretically, we show that our method leads to a predictable reduction in variance, while maintaining an unbiased estimation without additional LLM inference cost. We also perform empirical experiments on the MATH-500 and GSM8K benchmarks to demonstrate the effectiveness of our method. Notably, ComMCS outperforms regression-based optimization method by 2.8 points, the non-variance-reduced baseline by 2.2 points on MATH-500 on Best-of-32 sampling experiment.

Improving Value-based Process Verifier via Low-Cost Variance Reduction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理