Process Supervision via Verbal Critique Improves Reasoning in Large Language Models
作者: Hao-Yuan Chen
分类: cs.CL, cs.AI
发布日期: 2026-04-23
💡 一句话要点
提出Verbal Process Supervision,通过外部语言反馈提升大语言模型推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 推理能力 自然语言反馈 过程监督 迭代优化
📋 核心要点
- 现有大语言模型推理的扩展主要集中在链深度、样本广度和学习到的步骤评分器(PRMs)三个方面,缺乏对外部监督粒度的有效利用。
- 论文提出Verbal Process Supervision (VPS),利用更强监督者的自然语言反馈,迭代地生成、评价和改进推理过程,无需额外的训练。
- 实验表明,VPS在多个基准测试中显著提升了模型性能,尤其是在弱模型和需要复杂推理的任务上,证明了反馈粒度的重要性。
📝 摘要(中文)
本文提出了一种名为Verbal Process Supervision (VPS) 的训练无关框架,通过来自更强大的监督者的结构化自然语言反馈,指导迭代的生成-评价-改进循环,循环次数由预算R决定。该方法在GPQA Diamond、AIME 2025和LiveCodeBench V6上进行了评估,结果表明:在GPQA Diamond上,GPT-5.4 (High) | GPT-5.4 (Low) 在R=4时达到94.9%的准确率,超过了当前94.1%的最优水平,且无需梯度更新。在AIME 2025上,VPS能够显著提升弱模型的性能,将分数从11.7-26.7%提高到63.3-90.0%(最高提升63.3个百分点)。在计算量匹配的情况下,VPS在GPQA上比Reflexion高出+8.5到+12.1个百分点,在LiveCodeBench上比Self-Consistency@5高出+8.3个百分点,证明了反馈粒度是关键驱动因素。性能随监督者-执行者能力差距的增大而提升(Pearson r=0.90),并在错误无法用语言表达时(例如,代码合成)性能下降,这促使人们研究混合的语言-可执行方法。这些结果确立了反馈粒度作为推理时扩展的新维度。
🔬 方法详解
问题定义:现有大语言模型在推理时,主要通过增加链深度、扩大样本广度以及使用学习到的步骤评分器来提升性能。然而,这些方法忽略了外部监督的粒度,即如何有效地利用外部知识来指导模型的推理过程。现有方法缺乏一种有效的机制,能够将外部反馈融入到模型的迭代推理过程中,从而限制了模型的性能提升。
核心思路:论文的核心思路是通过引入来自更强监督者的自然语言反馈,来指导模型的迭代推理过程。具体来说,模型首先生成一个初步的推理过程,然后由监督者对该过程进行评价,并给出具体的改进建议。模型根据这些建议进行改进,并重复这个过程,直到达到预定的循环次数。这种方法的核心在于利用了监督者的专业知识,通过自然语言的方式来指导模型的推理,从而提升模型的性能。
技术框架:VPS框架包含以下几个主要模块:1) Actor模型:负责生成初步的推理过程。2) Supervisor模型:负责对Actor模型生成的推理过程进行评价,并给出改进建议。3) Refinement模块:负责根据Supervisor模型的建议,对Actor模型生成的推理过程进行改进。整个流程是一个迭代的生成-评价-改进循环,循环次数由预算R决定。在每一轮循环中,Actor模型生成推理过程,Supervisor模型给出反馈,Refinement模块根据反馈进行改进,直到达到R轮循环。
关键创新:论文最重要的技术创新点在于提出了利用自然语言反馈来指导模型推理过程的思想。与传统的通过梯度更新来训练模型的方法不同,VPS是一种训练无关的方法,它可以在推理时动态地利用外部知识来提升模型的性能。此外,VPS还引入了反馈粒度的概念,即通过调整反馈的详细程度来控制模型的学习过程。
关键设计:在实验中,论文使用了GPT-3.5和GPT-4作为Actor模型和Supervisor模型。Supervisor模型给出的反馈包括对推理过程的正确性、完整性和效率的评价,以及具体的改进建议。Refinement模块根据这些建议,对Actor模型生成的推理过程进行修改。论文还研究了不同反馈粒度对模型性能的影响,发现更细粒度的反馈能够带来更好的性能提升。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VPS在GPQA Diamond数据集上,GPT-5.4模型在R=4时达到了94.9%的准确率,超过了当前最优水平。在AIME 2025数据集上,VPS能够显著提升弱模型的性能,最高提升63.3个百分点。在计算量匹配的情况下,VPS在GPQA上比Reflexion高出+8.5到+12.1个百分点,在LiveCodeBench上比Self-Consistency@5高出+8.3个百分点。
🎯 应用场景
该研究成果可应用于需要复杂推理能力的各种场景,例如医疗诊断、金融分析、法律咨询等。通过引入外部专家知识,可以显著提升大语言模型在这些领域的应用效果。未来,该方法有望与可执行代码结合,进一步提升模型在代码生成等领域的性能。
📄 摘要(原文)
Inference-time scaling for LLM reasoning has focused on three axes: chain depth, sample breadth, and learned step-scorers (PRMs). We introduce a fourth axis, granularity of external verbal supervision, via Verbal Process Supervision (VPS), a training-free framework that uses structured natural-language critique from a stronger supervisor to guide an iterative generate-critique-refine loop up to a round budget R. Across GPQA Diamond, AIME 2025, and LiveCodeBench V6 (covering both closed and open models), VPS yields three key results. First, on GPQA Diamond, GPT-5.4 (High) | GPT-5.4 (Low) reaches 94.9% at R=4, surpassing the 94.1% state of the art without gradient updates. Second, on AIME 2025, VPS enables strong weak-actor rescue, boosting scores from 11.7-26.7% to 63.3-90.0% (up to +63.3 points). Third, at matched compute, VPS outperforms Reflexion by +8.5 to +12.1 points and Self-Consistency@5 by +5.0 pp (GPQA) and +8.3 pp (LiveCodeBench), isolating critique granularity as the key driver. Performance scales with the supervisor-actor capability gap (Pearson r=0.90) and degrades when errors are not linguistically expressible (e.g., code synthesis), motivating hybrid verbal-executable methods. These results establish critique granularity as a new axis of inference-time scaling.