When Does Verification Pay Off? A Closer Look at LLMs as Solution Verifiers
作者: Jack Lu, Ryan Teehan, Jinran Jin, Mengye Ren
分类: cs.CL
发布日期: 2025-12-02
💡 一句话要点
研究LLM作为解决方案验证器的有效性,揭示跨模型验证的优势与后训练的影响。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 解决方案验证 跨模型验证 后训练 验证器增益 拒绝采样 模型评估
📋 核心要点
- 现有研究对LLM作为解决方案验证器的能力探索不足,尤其缺乏对跨模型家族验证效果的深入分析。
- 论文提出系统性研究,对比同家族与跨家族验证效果,并引入“验证器增益”指标预测性能提升。
- 实验结果表明,跨家族验证更有效,后训练虽降低自我提升,但增强了跨家族验证的性能。
📝 摘要(中文)
大型语言模型(LLM)既可以作为问题求解器,也可以作为解决方案验证器。验证器通过从候选答案池中选择高质量答案来提高求解器的性能。然而,以往对求解器-验证器交互的研究有限,主要集中在自我验证上,很少考察验证器如何判断来自相同或不同模型家族的输出。现代LLM也经历了广泛的后训练,但其对验证的影响尚不清楚。本文对跨越多个家族、大小以及基础模型与后训练变体的37个模型进行了系统研究,并在涵盖逻辑推理、结构化谜题、符号计算、数学、常识、事实回忆和领域知识的9个基准上进行了评估。我们比较了自我验证、同家族验证和跨家族验证。为此,我们引入并经验性地验证了验证器增益,这是一种可以预测基于测试时验证器拒绝采样的性能改进的指标。我们分析了验证器增益和假阳性率等指标如何随模型大小和后训练而变化,并描述了数据集可验证性的差异。我们的研究结果表明,跨家族验证尤其有效;后训练降低了自我提升,但加强了跨家族提升;数学和逻辑任务表现出最高的固有可验证性。
🔬 方法详解
问题定义:现有研究主要关注LLM的自我验证能力,忽略了不同模型家族之间相互验证的潜力。此外,后训练对LLM验证能力的影响也缺乏系统性的分析。因此,本文旨在深入研究LLM作为解决方案验证器时,同家族验证和跨家族验证的有效性,以及后训练对验证能力的影响。
核心思路:本文的核心思路是系统性地评估不同模型家族、不同大小以及经过后训练的LLM在验证任务中的表现。通过对比不同验证策略(自我验证、同家族验证、跨家族验证)的效果,揭示不同验证策略的优劣。同时,引入“验证器增益”这一指标,用于预测验证器带来的性能提升,从而更好地理解验证过程。
技术框架:本文的研究框架主要包括以下几个步骤:1) 选择37个不同家族、大小和训练方式的LLM;2) 在9个涵盖不同任务类型的基准数据集上进行评估;3) 采用不同的验证策略(自我验证、同家族验证、跨家族验证);4) 计算“验证器增益”等指标,分析不同验证策略的效果;5) 分析模型大小和后训练对验证能力的影响。
关键创新:本文的关键创新在于:1) 系统性地研究了LLM作为解决方案验证器的能力,涵盖了不同模型家族、大小和训练方式;2) 提出了“验证器增益”这一指标,用于预测验证器带来的性能提升;3) 揭示了跨家族验证的优势以及后训练对验证能力的影响。
关键设计:本文的关键设计包括:1) 选择了具有代表性的37个LLM,覆盖了不同家族(例如,GPT、LLaMA)、不同大小(从小型模型到大型模型)以及不同训练方式(基础模型和后训练模型);2) 选择了9个涵盖不同任务类型的基准数据集,包括逻辑推理、数学、常识等;3) 采用了拒绝采样策略,即验证器拒绝低质量的答案,只保留高质量的答案;4) 使用准确率作为评估指标,衡量验证器的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,跨家族验证比自我验证更有效,尤其是在数学和逻辑任务上。后训练虽然降低了自我提升的效果,但显著增强了跨家族验证的性能。验证器增益指标能够有效预测验证器带来的性能提升。例如,在某些任务上,跨家族验证可以将准确率提高10%以上。
🎯 应用场景
该研究成果可应用于提升LLM在各种任务中的可靠性和准确性,例如自动问答系统、代码生成、文本摘要等。通过选择合适的验证器,可以有效过滤掉LLM生成的错误或低质量答案,从而提高系统的整体性能和用户体验。此外,该研究还可以指导LLM的训练和优化,使其更擅长于验证任务。
📄 摘要(原文)
Large language models (LLMs) can act as both problem solvers and solution verifiers, with verifiers improving solver performance by selecting high-quality answers from a pool of candidates. However, prior studies of solver-verifier interactions have been limited, focusing mainly on self-verification and rarely examining how verifiers judge outputs from models in their own or in another model family. Modern LLMs also undergo extensive post-training, but its effect on verification remains unclear. We present a systematic study across 37 models spanning multiple families, sizes, and base vs. post-trained variants, evaluated on 9 benchmarks covering logical reasoning, structured puzzles, symbolic computation, mathematics, commonsense, factual recall, and domain knowledge. We compare self-verification with verification within the same family and across different families. To support this, we introduce and empirically validate verifier gain, a metric that predicts the performance improvements from test-time verifier-based rejection sampling. We analyze how metrics like verifier gain and false positive rate scale with model size and post-training, and characterize differences in dataset verifiability. Our findings show that cross-family verification is especially effective; post-training reduces self-improvement but strengthens cross-family improvement; and mathematical and logical tasks exhibit the highest inherent verifiability.