Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach
作者: João Paulo Nogueira, Wentao Sun, Alonso Silva, Laith Zumot
分类: cs.AI, cs.CL
发布日期: 2025-09-09
💡 一句话要点
提出确定性引导推理(CGR),提升大语言模型推理效率与可靠性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 推理 确定性 动态预算 效率优化
📋 核心要点
- 现有大语言模型推理过程token消耗大,效率低,难以在资源受限场景部署。
- 提出确定性引导推理(CGR),利用评论模型评估推理置信度,动态调整推理步数。
- 实验表明CGR在提升准确率的同时,显著降低token使用量,并提高模型稳定性。
📝 摘要(中文)
大型推理语言模型(LRLMs)在解决复杂任务方面展现出巨大潜力。这些模型通常具有一个“思考预算”,即用于得出解决方案的预定义推理token数量。本文提出了一种新颖的方法,灵感来源于生成对抗网络中的生成器/判别器框架,其中一个评论模型定期探测自身的推理过程,以评估是否已达到一个确信的结论。如果未达到,则推理继续进行,直到满足目标确定性阈值。这种机制通过允许在高置信度时提前终止,并在不确定性持续存在时鼓励进一步推理,从而自适应地平衡了效率和可靠性。在AIME2024和AIME2025数据集上的实验表明,确定性引导推理(CGR)提高了基线准确率,同时减少了token的使用。重要的是,超过64次运行的扩展多种子评估表明,CGR是稳定的,减少了种子之间的方差,并提高了基于惩罚的评分下的类似考试的性能。此外,我们的token节省分析表明,CGR可以消除数百万个token,并在确定性阈值和效率之间实现可调整的权衡。总之,这些发现突出了确定性作为推理充分性的一个强大信号。通过将置信度集成到推理过程中,CGR使大型推理语言模型更具适应性、更值得信赖和资源效率更高,为在准确性和计算成本都很重要的领域中的实际部署铺平了道路。
🔬 方法详解
问题定义:现有的大型语言模型在进行复杂推理任务时,通常采用预先设定的“思考预算”(即token数量)。这种固定预算的方式可能导致两种问题:一是当模型已经得出可靠结论时,仍然浪费计算资源进行不必要的推理;二是当模型面临不确定性时,预算不足导致推理不充分,影响准确性。因此,如何动态地调整推理过程,在保证准确性的前提下提高效率,是本文要解决的核心问题。
核心思路:本文的核心思路是引入一个“评论模型”,该模型类似于生成对抗网络(GAN)中的判别器,用于评估当前推理过程的“确定性”。通过周期性地评估推理的确定性,模型可以自适应地决定是否需要继续推理。如果确定性足够高,则提前终止推理,节省计算资源;如果确定性较低,则继续推理,直到达到预设的确定性阈值。这种动态调整机制旨在平衡推理的效率和可靠性。
技术框架:CGR框架包含两个主要模块:推理模型(Generator)和评论模型(Discriminator)。推理模型负责执行实际的推理过程,生成中间步骤和最终答案。评论模型则周期性地接收推理模型的输出,并评估其确定性。具体流程如下:1. 推理模型进行一定步数的推理;2. 评论模型评估当前推理结果的确定性;3. 如果确定性高于阈值,则终止推理,输出结果;4. 如果确定性低于阈值,则推理模型继续进行推理,重复步骤2和3。
关键创新:CGR的关键创新在于将确定性评估融入到推理过程中,实现动态的推理预算分配。与传统的固定预算方法相比,CGR能够根据任务的复杂度和模型的置信度自适应地调整推理步数,从而在保证准确性的前提下提高效率。此外,CGR借鉴了GAN的思想,利用评论模型来指导推理过程,这是一种新颖的思路。
关键设计:评论模型的具体实现方式未知,论文中可能未详细描述其网络结构或损失函数。确定性阈值的设置是一个关键参数,它决定了推理的终止条件。阈值设置过高可能导致过度推理,浪费资源;阈值设置过低可能导致推理不足,影响准确性。论文中可能讨论了如何选择合适的确定性阈值,以及确定性评估的具体方法。
🖼️ 关键图片
📊 实验亮点
在AIME2024和AIME2025数据集上的实验结果表明,CGR在提高基线准确率的同时,显著减少了token的使用量。多种子实验结果表明,CGR能够降低模型在不同种子下的方差,提高模型稳定性。Token节省分析表明,CGR可以消除数百万个token,并在确定性阈值和效率之间实现可调整的权衡。具体性能提升数据未知。
🎯 应用场景
CGR方法适用于对计算资源敏感,同时对准确性有较高要求的场景,例如移动设备上的智能助手、边缘计算环境下的推理服务等。通过动态调整推理步数,CGR可以有效降低token消耗,提高推理效率,从而使大型语言模型能够在资源受限的环境中部署和应用。此外,CGR的自适应推理机制也有助于提高模型的鲁棒性和泛化能力。
📄 摘要(原文)
The rise of large reasoning language models (LRLMs) has unlocked new potential for solving complex tasks. These models operate with a thinking budget, that is, a predefined number of reasoning tokens used to arrive at a solution. We propose a novel approach, inspired by the generator/discriminator framework in generative adversarial networks, in which a critic model periodically probes its own reasoning to assess whether it has reached a confident conclusion. If not, reasoning continues until a target certainty threshold is met. This mechanism adaptively balances efficiency and reliability by allowing early termination when confidence is high, while encouraging further reasoning when uncertainty persists. Through experiments on the AIME2024 and AIME2025 datasets, we show that Certainty-Guided Reasoning (CGR) improves baseline accuracy while reducing token usage. Importantly, extended multi-seed evaluations over 64 runs demonstrate that CGR is stable, reducing variance across seeds and improving exam-like performance under penalty-based grading. Additionally, our token savings analysis shows that CGR can eliminate millions of tokens in aggregate, with tunable trade-offs between certainty thresholds and efficiency. Together, these findings highlight certainty as a powerful signal for reasoning sufficiency. By integrating confidence into the reasoning process, CGR makes large reasoning language models more adaptive, trustworthy, and resource efficient, paving the way for practical deployment in domains where both accuracy and computational cost matter.