Deep Think with Confidence
作者: Yichao Fu, Xuewei Wang, Yuandong Tian, Jiawei Zhao
分类: cs.LG
发布日期: 2025-08-21
💡 一句话要点
DeepConf:利用置信度动态过滤推理轨迹,提升LLM推理效率与准确率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理 置信度 自洽性 效率优化
📋 核心要点
- 现有LLM推理方法,如自洽性采样,面临准确率提升瓶颈和计算成本过高的挑战。
- DeepConf通过模型内部置信度信号,动态过滤低质量推理轨迹,无需额外训练。
- 实验表明,DeepConf在多种推理任务中显著提升准确率,并降低token生成量。
📝 摘要(中文)
大型语言模型(LLMs)在推理任务中展现出巨大潜力,例如通过自洽性方法和多数投票进行测试时扩展。然而,这种方法通常导致准确率的边际效益递减以及高昂的计算开销。为了解决这些挑战,我们提出了一种简单而强大的方法——Deep Think with Confidence (DeepConf),它可以在测试时提高推理效率和性能。DeepConf利用模型内部的置信度信号,在生成期间或之后动态过滤掉低质量的推理轨迹。它不需要额外的模型训练或超参数调整,并且可以无缝集成到现有的服务框架中。我们在各种推理任务和最新的开源模型(包括Qwen 3和GPT-OSS系列)上评估了DeepConf。值得注意的是,在AIME 2025等具有挑战性的基准测试中,DeepConf@512实现了高达99.9%的准确率,并且与完全并行思考相比,减少了高达84.7%的生成token。
🔬 方法详解
问题定义:现有的大型语言模型在进行复杂推理时,通常采用自洽性采样(self-consistency)方法,即生成多个推理路径,然后通过多数投票选择最终答案。这种方法虽然可以提高准确率,但存在两个主要问题:一是随着采样数量的增加,准确率的提升变得越来越有限,出现边际效益递减;二是生成大量的推理路径会显著增加计算开销,影响推理效率。因此,如何提高LLM推理的效率和准确率,同时降低计算成本,是一个亟待解决的问题。
核心思路:DeepConf的核心思路是利用模型自身的置信度信号来判断推理路径的质量,并动态地过滤掉低质量的推理路径。具体来说,DeepConf假设模型在生成高质量的推理路径时,其内部的置信度会相对较高;反之,在生成低质量的推理路径时,置信度会相对较低。因此,可以通过设定一个置信度阈值,将低于该阈值的推理路径过滤掉,从而减少计算开销,并提高最终答案的准确率。
技术框架:DeepConf的整体框架非常简单,可以分为两个阶段:推理路径生成阶段和推理路径过滤阶段。在推理路径生成阶段,模型按照正常的流程生成多个推理路径。在推理路径过滤阶段,DeepConf利用模型内部的置信度信号,对生成的推理路径进行评估,并将低于置信度阈值的推理路径过滤掉。最后,对剩余的推理路径进行多数投票,得到最终的答案。整个过程无需额外的模型训练或超参数调整,可以无缝集成到现有的服务框架中。
关键创新:DeepConf最关键的创新点在于利用模型内部的置信度信号来动态过滤推理路径。与传统的自洽性采样方法相比,DeepConf不需要生成大量的推理路径,而是通过置信度信号来选择高质量的推理路径,从而在保证准确率的同时,显著降低计算开销。此外,DeepConf不需要额外的模型训练或超参数调整,具有很强的通用性和易用性。
关键设计:DeepConf的关键设计在于如何定义和计算模型内部的置信度信号。论文中并没有明确说明如何计算置信度,这部分可能是依赖于具体LLM的实现。一种可能的实现方式是利用模型在生成每个token时的softmax概率分布,计算生成序列的平均概率或最小概率作为置信度。另一个关键设计是置信度阈值的选择,阈值过高会导致过滤掉过多的推理路径,降低准确率;阈值过低则无法有效降低计算开销。论文中提到DeepConf不需要超参数调整,这可能意味着阈值是根据经验设置的,或者采用了一些自适应的阈值选择方法(未知)。
📊 实验亮点
DeepConf在AIME 2025等高难度推理基准测试中表现出色,DeepConf@512配置下准确率高达99.9%,同时相比完全并行推理,token生成量减少高达84.7%。实验结果表明,DeepConf能够显著提升LLM的推理效率和准确率,具有很强的实用价值。
🎯 应用场景
DeepConf可广泛应用于各种需要LLM进行推理的场景,例如问答系统、数学问题求解、代码生成等。通过提高推理效率和准确率,DeepConf可以降低LLM的使用成本,并提升用户体验。未来,DeepConf有望成为LLM推理的标准配置,推动LLM在更多领域的应用。
📄 摘要(原文)
Large Language Models (LLMs) have shown great potential in reasoning tasks through test-time scaling methods like self-consistency with majority voting. However, this approach often leads to diminishing returns in accuracy and high computational overhead. To address these challenges, we introduce Deep Think with Confidence (DeepConf), a simple yet powerful method that enhances both reasoning efficiency and performance at test time. DeepConf leverages model-internal confidence signals to dynamically filter out low-quality reasoning traces during or after generation. It requires no additional model training or hyperparameter tuning and can be seamlessly integrated into existing serving frameworks. We evaluate DeepConf across a variety of reasoning tasks and the latest open-source models, including Qwen 3 and GPT-OSS series. Notably, on challenging benchmarks such as AIME 2025, DeepConf@512 achieves up to 99.9% accuracy and reduces generated tokens by up to 84.7% compared to full parallel thinking.