Knowing When to Quit: A Principled Framework for Dynamic Abstention in LLM Reasoning

📄 arXiv: 2604.18419v1 📥 PDF

作者: Hen Davidov, Nachshon Cohen, Oren Kalinsky, Yaron Fairstein, Guy Kushilevitz, Ram Yazdi, Patrick Rebeschini

分类: cs.LG, cs.CL, stat.ML

发布日期: 2026-04-20


💡 一句话要点

提出基于正则化强化学习的动态中止框架,提升LLM推理效率与准确性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 动态中止 强化学习 思维链推理 计算效率 价值函数 正则化

📋 核心要点

  1. 现有LLM推理计算开销大,且易产生错误回复,动态中止策略缺乏理论指导。
  2. 将动态中止建模为正则化强化学习,通过中止奖励参数平衡计算与信息。
  3. 实验证明,当价值函数低于奖励时中止,优于现有方法,提升选择性准确性。

📝 摘要(中文)

大型语言模型(LLMs)在使用思维链推理时,经常因生成冗长且不正确的回复而浪费大量计算资源。中止机制可以通过抑制不太可能正确的输出来缓解这个问题。虽然大多数中止方法在生成之前或之后决定是否抑制输出,但动态中间生成中止考虑在每个token位置提前终止没有希望的推理轨迹。先前的工作已经探索了这种想法的经验变体,但仍然缺乏对中止规则的原则性指导。我们提出了LLM动态中止的正式分析,将中止建模为正则化强化学习框架中的显式动作。中止奖励参数控制计算和信息之间的权衡。我们表明,当价值函数低于此奖励时中止,在一般条件下严格优于自然基线。我们进一步推导出一种原则性和有效的方法来近似价值函数。在数学推理和毒性避免任务上的实验结果支持了我们的理论,并证明了相对于现有方法,选择性准确性有所提高。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在进行思维链推理时,由于生成冗长且不正确的回复而导致的计算资源浪费问题。现有的中止方法要么在生成之前或之后进行决策,要么缺乏对动态中止规则的原则性指导,导致效率低下和性能不稳定。

核心思路:论文的核心思路是将动态中止问题建模为一个正则化的强化学习框架,其中中止被视为一个显式的动作。通过引入一个中止奖励参数,来控制计算资源消耗和信息获取之间的权衡。当模型预测的价值函数低于该奖励阈值时,则选择中止推理过程,从而避免不必要的计算开销。

技术框架:该框架包含以下主要阶段:1) 使用LLM生成token序列,进行思维链推理;2) 在每个token位置,使用价值函数评估当前推理轨迹的潜在价值;3) 将价值函数与预设的中止奖励参数进行比较;4) 如果价值函数低于中止奖励,则执行中止动作,停止生成;否则,继续生成下一个token。整个过程通过正则化强化学习进行优化,以学习最优的中止策略。

关键创新:论文的关键创新在于提出了一个基于正则化强化学习的动态中止框架,为LLM的动态中止提供了一个原则性的理论基础。与以往的经验性方法不同,该框架通过显式地建模中止动作和引入中止奖励参数,实现了对计算资源和信息获取的精细化控制。此外,论文还推导出了一种高效的价值函数近似方法,使得该框架能够应用于实际的LLM推理任务中。

关键设计:关键设计包括:1) 中止奖励参数:用于控制计算资源和信息获取之间的权衡,其值越高,模型越倾向于提前中止;2) 价值函数:用于评估当前推理轨迹的潜在价值,可以通过各种方法进行近似,例如使用LLM的置信度分数或预测的准确率;3) 正则化项:用于防止模型过度中止,鼓励模型在有希望的情况下继续推理。损失函数包括强化学习中的标准奖励函数,以及一个与中止奖励相关的正则化项。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在数学推理和毒性避免任务上均取得了显著的性能提升。具体而言,在数学推理任务上,该方法在保持或提高准确率的同时,显著减少了计算量。在毒性避免任务上,该方法能够更有效地识别和中止可能产生有害内容的推理过程,从而降低了LLM生成有害内容的风险。与现有方法相比,该方法在选择性准确性方面表现更优。

🎯 应用场景

该研究成果可应用于各种需要高效和可靠推理的LLM应用场景,例如数学问题求解、代码生成、文本摘要和对话系统。通过动态中止不 promising 的推理路径,可以显著降低计算成本,提高推理效率,并提升LLM在资源受限环境下的部署能力。此外,该方法还有助于提高LLM的鲁棒性和安全性,例如通过提前中止可能产生有害或不准确内容的推理过程。

📄 摘要(原文)

Large language models (LLMs) using chain-of-thought reasoning often waste substantial compute by producing long, incorrect responses. Abstention can mitigate this by withholding outputs unlikely to be correct. While most abstention methods decide to withhold outputs before or after generation, dynamic mid-generation abstention considers early termination of unpromising reasoning traces at each token position. Prior work has explored empirical variants of this idea, but principled guidance for the abstention rule remains lacking. We present a formal analysis of dynamic abstention for LLMs, modeling abstention as an explicit action within a regularized reinforcement learning framework. An abstention reward parameter controls the trade-off between compute and information. We show that abstaining when the value function falls below this reward strictly outperforms natural baselines under general conditions. We further derive a principled and efficient method to approximate the value function. Empirical results on mathematical reasoning and toxicity avoidance tasks support our theory and demonstrate improved selective accuracy over existing methods.