CoRefine: Confidence-Guided Self-Refinement for Adaptive Test-Time Compute

📄 arXiv: 2602.08948v1 📥 PDF

作者: Chen Jin, Ryutaro Tanno, Tom Diethe, Philip Teare

分类: cs.AI, cs.CL

发布日期: 2026-02-09


💡 一句话要点

提出CoRefine,利用置信度引导LLM自精炼,降低推理计算成本。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自适应计算 置信度引导 大型语言模型 推理优化 计算效率

📋 核心要点

  1. LLM推理依赖大规模并行解码提升精度,但计算成本高昂,限制了实际应用。
  2. CoRefine利用轻量级控制器,根据置信度动态调整推理过程,实现自适应计算。
  3. 实验表明,CoRefine在保证精度的前提下,显著降低了token使用量,提升效率。

📝 摘要(中文)

大型语言模型(LLMs)通常依赖于测试时缩放,例如并行解码(512个样本),以提高推理准确性,但这会产生巨大的计算成本。我们引入CoRefine,一种置信度引导的自精炼方法,它通过在冻结的LLM之上添加一个轻量级的211k参数Conv1D控制器,以一小部分tokens实现具有竞争力的准确性。该控制器消耗完整轨迹的置信度,以决定是否停止、重新检查或尝试不同的方法,从而实现有针对性的自我纠正,每个问题平均需要2.7个精炼步骤,并且相对于512个样本的基线,token减少约190倍。在不同的推理基准和三个开源模型上,当控制器自信地停止时,它实现了92.6%的精度,表明置信度动态可靠地指示正确性,而无需ground-truth验证。我们将此扩展到CoRefine-Tree,一种混合的顺序-并行变体,可以自适应地平衡探索和利用,具有简单的服务集成和验证器兼容性。通过将置信度视为控制信号而不是正确性保证,CoRefine为具有不完善验证器的可扩展推理和代理设置提供了一个模块化原语。

🔬 方法详解

问题定义:现有的大型语言模型在推理时,为了提高准确率,通常采用大规模并行解码的方式,例如生成512个样本。这种方法虽然能够提升性能,但是带来了巨大的计算开销,使得实际应用成本过高。因此,如何在保证推理准确率的前提下,降低计算成本,是一个重要的研究问题。

核心思路:CoRefine的核心思路是利用模型自身的置信度作为指导信号,动态地调整推理过程。具体来说,通过一个轻量级的控制器来监控LLM的推理过程,并根据置信度决定是否停止、重新检查或尝试其他方法。这样可以避免不必要的计算,从而降低整体的计算成本。

技术框架:CoRefine的整体框架包括一个冻结的LLM和一个轻量级的Conv1D控制器。LLM负责进行推理,控制器负责监控推理过程并做出决策。控制器接收LLM输出的置信度信息,并根据置信度决定下一步的操作。CoRefine还提出了CoRefine-Tree,一种混合的顺序-并行变体,用于平衡探索和利用。

关键创新:CoRefine的关键创新在于将置信度作为控制信号,而不是将其作为正确性的保证。这种方法使得CoRefine能够自适应地调整推理过程,从而在保证精度的前提下,显著降低计算成本。此外,CoRefine的模块化设计使得它可以很容易地集成到现有的LLM框架中。

关键设计:CoRefine使用一个211k参数的Conv1D控制器。控制器接收LLM输出的置信度信息,并输出一个决策信号,用于决定下一步的操作。控制器使用交叉熵损失函数进行训练,目标是最大化正确决策的概率。CoRefine-Tree通过调整探索和利用的比例,进一步优化了推理效率。

📊 实验亮点

实验结果表明,CoRefine在多个推理基准上取得了显著的性能提升。相对于512个样本的基线,CoRefine能够将token使用量减少约190倍,同时保持具有竞争力的准确率。当控制器自信地停止时,它实现了92.6%的精度,表明置信度动态能够可靠地指示正确性。CoRefine在三个开源模型上进行了验证,证明了其通用性和有效性。

🎯 应用场景

CoRefine具有广泛的应用前景,可以应用于各种需要大规模推理的场景,例如问答系统、机器翻译、文本摘要等。通过降低计算成本,CoRefine使得这些应用能够更加高效地运行,并降低了部署成本。此外,CoRefine的自适应推理能力也使得它可以更好地适应不同的任务和数据。

📄 摘要(原文)

Large Language Models (LLMs) often rely on test-time scaling via parallel decoding (for example, 512 samples) to boost reasoning accuracy, but this incurs substantial compute. We introduce CoRefine, a confidence-guided self-refinement method that achieves competitive accuracy using a fraction of the tokens via a lightweight 211k-parameter Conv1D controller atop a frozen LLM. The controller consumes full-trace confidence to decide whether to halt, re-examine, or try a different approach, enabling targeted self-correction with an average of 2.7 refinement steps per problem and roughly 190-fold token reduction relative to 512-sample baselines. Across diverse reasoning benchmarks and three open-source models, the controller achieves 92.6 percent precision when it confidently halts, indicating that confidence dynamics reliably signal correctness without ground-truth verification. We extend this to CoRefine-Tree, a hybrid sequential-parallel variant that adaptively balances exploration and exploitation, with easy serving integration and verifier compatibility. By treating confidence as a control signal rather than a correctness guarantee, CoRefine provides a modular primitive for scalable reasoning and agentic settings with imperfect verifiers.