Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning

📄 arXiv: 2606.01682v1 📥 PDF

作者: Atoosa Chegini, Soheil Feizi

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-06-01


💡 一句话要点

提出Chunk-Level Guided Generation,利用离线LLM作为过程评分器,无需训练即可提升数学推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数学推理 大型语言模型 过程引导 免训练 离线推理

📋 核心要点

  1. 现有方法依赖于训练奖励模型来指导推理过程,但训练成本高昂且需要步骤级别的标签。
  2. Chunk-Level Guided Generation利用离线LLM对固定长度的候选块进行评分,从而在错误传播前引导生成,无需训练。
  3. 实验表明,该方法在多个数学推理数据集上显著优于多数投票,且在一定程度上可与训练过的PRM模型竞争,同时减少了推理轨迹的长度。

📝 摘要(中文)

本文提出了一种名为Chunk-Level Guided Generation的免训练方法,用于提升小模型的数学推理能力。该方法利用离线的大型语言模型(LLM)作为过程评分器。在每个步骤中,小模型采样k个固定长度的候选块,而大型模型通过计算似然度对这些候选块进行评分,无需生成任何文本。选择的块会被确定下来,从而在错误传播之前引导生成过程。本文提出了两种选择规则:似然引导选择(LGS),选择具有最高长度归一化大模型对数概率的块;对比引导选择(CGS),通过减去小模型的对数概率,来偏向于大型模型偏好与小模型不同的块。实验表明,使用大型模型似然度对可变长度的推理步骤进行评分是不可靠的,因为存在即使在长度归一化后仍然存在的系统性长度偏差,而固定长度的块可以避免这种混淆。在GSM8K、MATH、Minerva Math、AMC23和AIME24数据集上,使用Qwen2.5-1.5B模型在Qwen2.5-32B和Llama-3.2-1B模型的指导下,CGS的性能优于多数投票,最高提升28个百分点,并且在匹配的指导预算下,在大多数基准测试中与Qwen2.5-Math-PRM-72B引导搜索的性能相当或更好,而无需奖励模型训练。使用Qwen2.5-7B模型在Qwen2.5-72B模型的指导下,CGS在k=16时在MATH上达到81.8%,在Minerva Math上达到63.6%,超过多数投票4-6个百分点。最后,Chunk-Level Guided Generation产生的推理轨迹比PRM引导搜索短得多。

🔬 方法详解

问题定义:现有的基于过程奖励模型(PRM)的引导搜索方法,虽然能够通过在生成过程中对候选延续进行评分来避免小模型陷入错误的推理路径,但需要训练一个奖励模型,这需要步骤级别的标签,训练成本高昂,并且奖励模型的性能直接影响最终结果。此外,使用LLM似然度对变长推理步骤进行评分时,存在长度偏差,即使经过长度归一化也无法完全消除。

核心思路:本文的核心思路是利用一个现成的(off-the-shelf)大型语言模型(LLM)作为过程评分器,在生成过程中对小模型生成的固定长度的候选文本块(chunk)进行评分,选择得分最高的块作为下一步的生成内容。这种方法避免了训练奖励模型的需要,并且通过固定长度的块来消除长度偏差的影响。

技术框架:Chunk-Level Guided Generation框架包含以下主要步骤:1. 小模型在每个步骤中采样k个固定长度的候选文本块。2. 大型语言模型(LLM)对这些候选块进行评分,评分方式基于LLM的似然度。3. 根据选择规则(LGS或CGS)选择一个最佳的文本块。4. 将选择的文本块添加到已生成的文本序列中,并重复上述步骤直到生成完成。

关键创新:该方法最重要的创新点在于使用离线LLM作为过程评分器,避免了训练奖励模型的需要。此外,通过固定长度的文本块来消除长度偏差的影响,提高了评分的准确性。对比引导选择(CGS)也是一个创新点,它考虑了小模型和大模型之间的差异,选择大模型更偏好但小模型不太可能生成的块。

关键设计:1. 固定长度的文本块:选择合适的文本块长度是一个关键参数,需要根据具体的任务和模型进行调整。2. 选择规则:本文提出了两种选择规则:LGS(Likelihood-Guided Selection)和CGS(Contrastive-Guided Selection)。LGS选择具有最高长度归一化LLM对数概率的块。CGS通过减去小模型的对数概率来偏向于LLM更偏好但小模型不太可能生成的块。CGS的公式为:score(chunk) = LLM_log_prob(chunk) - small_model_log_prob(chunk)。3. 采样数量k:每个步骤中采样的候选块的数量k也是一个关键参数,需要根据计算资源和性能要求进行权衡。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Chunk-Level Guided Generation在多个数学推理数据集上取得了显著的性能提升。例如,在MATH数据集上,使用Qwen2.5-7B模型在Qwen2.5-72B模型的指导下,CGS在k=16时达到了81.8%的准确率,超过多数投票4-6个百分点。此外,该方法在匹配的指导预算下,在大多数基准测试中与Qwen2.5-Math-PRM-72B引导搜索的性能相当或更好,而无需奖励模型训练。推理轨迹也显著缩短。

🎯 应用场景

该研究成果可应用于各种需要数学推理能力的场景,例如自动解题、科学计算、金融分析等。通过利用现成的LLM,可以显著降低开发成本,并提高推理的准确性和效率。该方法还可以扩展到其他需要逐步推理的任务中,例如代码生成、文本摘要等。

📄 摘要(原文)

Selecting the best response from multiple small-model samples using a stronger scorer is a simple inference-time strategy, but fails when the small model has already committed to incorrect reasoning paths. PRM guided search avoids this by scoring candidate continuations during generation, but requires a reward model trained with step-level labels. We propose Chunk-Level Guided Generation, a training-free alternative that uses an off-the-shelf large language model as a process scorer. At each step, a small model samples k fixed-length candidate chunks, while the larger model scores the candidates using likelihoods without generating any text. The selected chunk is committed before the next step, steering generation before errors can propagate. We instantiate this framework with two selection rules: Likelihood-Guided Selection (LGS), which selects the chunk with the highest length-normalized large-model log-probability, and Contrastive-Guided Selection (CGS), which subtracts the small model's log-probability to favor chunks where the large model's preference diverges from the small model's. We show that scoring variable-length reasoning steps with large-model likelihoods is unreliable due to a systematic length bias that persists even after length normalization, and that fixed-length chunks avoid this confound. On GSM8K, MATH, Minerva Math, AMC23, and AIME24 with Qwen2.5-1.5B guided by Qwen2.5-32B and Llama-3.2-1B guided by Llama-3.1-70B, CGS outperforms majority voting by up to 28 pp and, under matched guidance budgets, matches or outperforms Qwen2.5-Math-PRM-72B guided search on most benchmarks without reward-model training. With Qwen2.5-7B guided by Qwen2.5-72B, CGS reaches 81.8% on MATH and 63.6% on Minerva Math at k=16, surpassing majority voting by 4--6 pp. Finally, Chunk-Level Guided Generation produces substantially shorter reasoning traces than PRM guided search.