Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs

📄 arXiv: 2510.05987v1 📥 PDF

作者: Xueyan Li, Guinan Su, Mrinmaya Sachan, Jonas Geiping

分类: cs.LG, cs.CL

发布日期: 2025-10-07


💡 一句话要点

提出基于正确性的LLM解码策略,提升复杂推理任务性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 解码策略 复杂推理 正确性校准 采样算法

📋 核心要点

  1. 现有LLM解码方法在探索推理多样性和保证结果准确性之间存在冲突,简单地依赖置信度进行采样或拒绝样本并不合理。
  2. 论文提出基于正确性而非置信度校准的解码策略,在高正确性token中采样,减少低正确性token的采样,从而提升推理性能。
  3. 通过Greedy-Threshold、Calibrated-TopK和Calibrated-epsilon等策略,在数学和通用推理基准测试中验证了方法的有效性。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地应用于需要扩展推理的复杂任务。在这种情况下,模型通常受益于多样化的思维链,以获得多个候选解决方案。这需要两个相互竞争的目标:注入足够的随机性来探索多个推理链,并确保每个路径具有足够的准确性和质量。现有工作通过在高度不确定的步骤中提高温度或扩大候选token集合来追求第一个目标,而另一些工作通过拒绝置信度低的样本来提高可靠性,这意味着低置信度与低答案质量相关。这两种思路存在冲突,因为它们混淆了不确定性的不同来源。为了解决这个问题,我们认为解码规则应该通过正确性来校准,而不仅仅是置信度。我们应该从具有较高估计正确性的token中采样,并减少预期正确性较低情况下的采样。我们提出了实现此目标的简单策略:Greedy-Threshold在非常低置信度的步骤中进行贪婪采样。Calibrated-TopK和Calibrated-epsilon基于估计的rank-wise正确性设置截断阈值。总之,我们的发现挑战了关于不确定性下解码的普遍启发式方法,并显示了在数学和一般推理基准测试中的收益。

🔬 方法详解

问题定义:现有的大型语言模型在进行复杂推理时,需要在探索多种可能的推理路径(增加随机性)和保证每条路径的准确性之间进行权衡。现有的方法要么通过提高温度或扩大候选token集合来增加探索,要么通过拒绝低置信度的样本来提高可靠性。然而,这些方法都依赖于模型的置信度,而置信度并不总是与正确性相关。因此,简单地基于置信度进行采样或拒绝样本可能会导致次优的结果。

核心思路:论文的核心思路是,解码过程应该基于token的正确性而非置信度进行校准。也就是说,应该优先选择那些更有可能产生正确答案的token,即使它们的置信度较低。通过这种方式,可以更好地平衡探索和准确性,从而提高复杂推理任务的性能。

技术框架:论文提出了三种基于正确性的解码策略: 1. Greedy-Threshold:在置信度非常低的步骤中,采用贪婪解码,即选择置信度最高的token。这可以避免在不确定性很高的情况下,由于随机采样而导致错误。 2. Calibrated-TopK:基于估计的rank-wise正确性设置截断阈值,只保留top-K个最有可能正确的token进行采样。 3. Calibrated-epsilon:与Calibrated-TopK类似,但使用epsilon作为截断阈值。

关键创新:论文的关键创新在于将解码过程与token的正确性联系起来,而非仅仅依赖于模型的置信度。这挑战了现有解码方法的普遍启发式方法,并为提高复杂推理任务的性能提供了一种新的思路。

关键设计:论文的关键设计在于如何估计token的正确性。虽然论文中没有明确说明如何估计正确性,但可以推断出,正确性可能是通过某种方式与模型的预测结果进行比较来获得的。例如,可以使用一些已知的正确答案来评估模型在生成每个token时的正确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的Greedy-Threshold、Calibrated-TopK和Calibrated-epsilon等策略在数学和通用推理基准测试中取得了显著的性能提升,表明基于正确性的解码方法优于传统的基于置信度的解码方法。具体提升幅度和对比基线数据在论文中给出。

🎯 应用场景

该研究成果可应用于各种需要复杂推理的场景,例如数学问题求解、代码生成、知识图谱推理等。通过提高LLM的推理准确性和可靠性,可以提升这些应用的用户体验和效率,并为开发更智能的AI系统奠定基础。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly applied to complex tasks that require extended reasoning. In such settings, models often benefit from diverse chains-of-thought to arrive at multiple candidate solutions. This requires two competing objectives: to inject enough stochasticity to explore multiple reasoning chains, and to ensure sufficient accuracy and quality in each path. Existing works pursue the first objective by increasing exploration at highly uncertain steps with higher temperature or larger candidate token sets, while others improve reliability by rejecting samples with low confidence post-generation, implying that low confidence correlates with low answer quality. These two lines of thought are in conflict, as they conflate different sources of uncertainty. To resolve this, we argue that the decoding rule should be calibrated by correctness, not confidence alone. We should sample from tokens with higher estimated correctness, and reduce sampling where expected correctness is low. We propose simple strategies that achieve this goal: Greedy-Threshold makes sampling greedy at very low confidence steps. Calibrated-TopK and Calibrated-epsilon set truncation threshold based on estimated rank-wise correctness. Together, our findings challenge prevailing heuristics about decoding under uncertainty and show gains across math and general reasoning benchmarks.